完成一個預測建模項目通常須要多長時間?

爲了回答這個問題,咱們先來了解一下建模的流程,一般一個完整的數據挖掘項目包含如下流程(1)業務理解、(2)數據理解、(3)數據準備、(4)數據預處理和建模、(5)模型評估、(6)模型部署應用。這個流程的操做性很強,也是業界公認標準。程序員

..

業務理解的主要工做有需求調研,瞭解商務背景;明確業務目標和成功的標準。數據理解和業務理解通常是同時進行的,主要內容包括肯定建模所須要的數據,描述數據,探索數據,檢驗數據質量,明確數據挖掘目標和成功標準。這兩個階段的主要任務就是明確挖掘目標和建模數據,目標和數據都明確之後就能夠開始着手準備數據。算法

數據準備的目的是創建數據集市或者寬表,主要工做包括選擇數據、清洗數據、構造數據、整合數據、格式化數據等等。若是企業的數據倉庫建設比較完善,那麼這個步驟的工做就很是簡單,只須要作一些數據篩選,表的的關聯工做便可。反之,若是數據都是一些很是原始的數據好比日誌數據、流水數據,數據準備這部分就比較耗費時間和精力了,須要作不少數據彙總,特徵提取的工做。ide

數據預處理和建模,這個環節是整個項目中含金量最高,難度最大的部分。不一樣的變量、數據類型、分佈狀況,對應的預處理的方式就不一樣,須要選擇什麼樣的建模方法,參數如何調優,如何構建模型都是要考慮的問題。主要工做有:樣本選取,肯定訓練樣本、測試樣本和驗證樣本、數據預處理、模型算法技術選型、篩選變量、模型訓練、模型測試等。還須要強調兩點:(1)數據預處理可能會花費大量的工做時間;(2)預處理和建模過程並不是一次性執行完畢就大功告成了,須要不斷的迭代優化,才能得到比較理想的結果。工具

模型評估,是對模型進行較爲全面的評價的過程,計算模型的各類指標,好比 AUC,Gini,KS,Lift,模型穩定性等等,而後就是進行模型的業務應用測試,判斷是否實現商業目標。部署應用就是把數據挖掘的成果部署到商業環境,應用於生產活動。測試

從數據挖掘的項目流程能夠看出,建模時間和企業的數據狀況、業務問題和模型複雜程度以及建模師的水平都密切關係。不過,即便數據倉庫平臺已經建設的很好的狀況,即再也不考慮數據準備的時間,僅僅關心建模自己的時間,對於較簡單的目標任務,一般也須要兩到三週的時間,延到幾個月的建模任務也都是很常見的。優化

爲什麼僅建模自己就要花費兩到三週的時間呢?調試

一方面是預處理,預處理是一個耗費時間但卻很是值得的投入。例如,5% 的顧客沒有指定年齡,是總體忽略該變量,仍是忽略這部分有缺失的樣本,又或者是將缺失值補充完整(使用平均值填充仍是中位數填充又或者更復雜的方法的填充),或者是訓練一個帶這個特徵的模型,再訓練一個不帶這個特徵的模型。一樣是缺失值處理,當缺失率爲 90% 時,是否還採用相同的處理方法呢。再例如,對於一些高基數的分類變量如何處理,數據中的噪音如何處理等等。這些都須要建模師結合本身的知識和經驗反覆的去調試。日誌

另外一方面,模型構建過程也會很耗時。選擇什麼樣的算法,一種算法還多種算法,算法的的初始參數如何配置,如何去尋找最優解等等,都是須要不斷調試的。正如咱們所說,預處理和建模過程並不是一次性執行完畢就大功告成了,而是須要不斷的迭代優化,直到獲得一個比較理想的結果,過程當中作到一大半,推倒重來的事情也是常有。blog

能夠說建模過程既是一個高大上的腦力勞動也是一個累人的體力活。在這種狀況下幾乎不可能實現批量建模,一般一個項目就只能創建一個模型,這個模型要儘可能有更普遍的應用範圍。這樣作其實會致使模型的適應能力降低,例如,預測房價,全國都用一個模型的效果一般不如分地區去建模適用性更好;再好比,精準營銷模型,不一樣的產品,不一樣層次的客戶羣體,消費特色是不一樣的,顯然針對性的創建多個模型會使整個營銷過程更加精準。部署

不過使人欣慰的是,隨着 AI 技術的發展,有一些智能化的工具是能夠幫助咱們提升工做效率的。自動建模技術就是一種可以自動實現數據探索、預處理、模型選擇、調參、評估一系列流程的技術。藉助自動建模工具,數據分析人員只須要完成業務理解,數據準備過程,剩下的須要反覆迭代進行的建模過程儘可交給工具來完成,無需再手動進行。採用自動建模技術,可以將幾周的建模時間縮短爲幾小時甚至幾分鐘,幾個月的建模時間不復存在,能夠大幅度的提升工做效率,減輕工做量。並且,建模過程變得簡單且很快之後,批量建模就再也不是問題,一天就能夠建多個模型,每一個模型能夠只適應一個局部或者一個小問題,批量的模型組成一個模型體系就能夠有更強的適應能力。此外,自動建模技術對人員要求也下降很多,再也不須要受過專業訓練的數據科學家,普通的程序員均可以藉助工具來完成數據挖掘工做。

對進一步數據挖掘和 AI 技術感興趣的同窗還能夠搜索「乾學院」,上面有面向小白的零基礎「數據挖掘」免費課程,

相關文章
相關標籤/搜索