1、說明算法
在實踐當中,一個數據挖掘項目(或者說在我們企業內部中一個分析研究主題),不但週期長,經常還會跨數據源,甚至跨部門協助進行,稍不留神就會陷入複雜的數據迷宮當中。爲了可以在整個項目階段可以保持研究重點,可以持續跟蹤,一個有效的數據挖掘方法論(明確的流程模型)是很是有必要的。資源
商業應用的數據挖掘會是一個持續性的項目過程,在這個過程當中,毫無疑問的是數據挖掘的各類算法是數據挖掘過程的核心步驟,但咱們也要明白算法並非整個項目的所有決定性因素。商業理解也是很是重要!部署
而爲了使得整個數據挖掘過程更加標準化,也就催生出不少數據挖掘過程的方法論,其中比較經典的是CRISP-DM(CRoss IndustryStandard Process- for Data Mining,跨行業數據挖掘標準流程),共分爲6個步驟:商業理解,數據理解,數據準備,建模,評估,發佈/部署。數據分析
2、商業理解數學
例如:商業理解是整個數據挖掘過程的最重要階段,你們設想一下假如咱們在電信行業,領導會說他想作一個流失分析,這個時候,你們能夠先想一想咱們怎麼理解這個問題。數據挖掘
若是剛接觸項目的時候,最直接的分析思惟就是須要先理解:基礎
(1)咱們的目標是預測哪些客戶會流失?變量
(2)更進一步咱們可能須要知道,哪些是影響客戶流失的重要因素?方法
不只如此,咱們還須要理解清楚:im
(1)爲何我們先提出的是流失分析,實際的優先級應該是怎樣的?
(2)對於咱們企業來講,如今的流失問題有多嚴重?
(3)預測客戶流失並非最終目的,客戶挽留纔是最後的價值,從業務上是否能夠根據挖掘結果針對性採起策略挽留流失?
(4)爲何是這個時候想作流失分析?
(5)爲何想經過數據挖掘來解決流失分析?
在第一階段必定要多問多想「爲何」?這些問題的答案決定了咱們的項目是否有堅實的業務基礎,以及投入的力度。
實際上,這是咱們定義好商業問題以後,進一步要作的一件事情就是:須要把商業問題轉化爲數學技術問題,如:
(1)如何定義流失?是客戶銷戶就夠了嗎,仍是客戶多個月欠費就能夠認爲流失?
(2)既然咱們的目標是挽留流失,那更重要的是在客戶流失前就找到這些人,那是否須要定義一個瀕臨流失階段(多個月沒有發生通話/只維持基本套餐費用)?
(3)進一步地在資源(人力,物力,時間)限制的狀況下,咱們須要進一步界定:哪些高價值的客戶在流失(資源不足以覆蓋全部高流失名單)?若是對流失的客戶(或部分客戶)進行挽留,投入是多少?收益是多少?
最後必須強調,一個在參與項目或者項目彙報常常忽略的問題,模型的結果並非咱們項目的最終結果,咱們要先把商業問題轉化爲數學問題,可是最後咱們得把數學結果轉變爲商業結果,這纔是在商業數據挖掘應用中的重中之重。
3、數據理解
數據提供了數據挖掘的「原材料」。該階段須要理解您的數據資源是什麼,以及這些資源有何特徵。
首先咱們須要與業務部門以及數據管理員肯定:
(1)在他們的認知當中,哪些數據能夠用來預測客戶流失?
(2)哪些數據是已經在我們的系統當中?
(3)是否有一些重要的影響因素還沒記錄或者須要必定代價才能獲取?
另外若是我們的數據量特別的大,這個時候也能夠藉助抽樣的方式進行一些簡單的探索。
在肯定好分析的數據源後,咱們還須要肯定這些數據當中每一個指標的業務含義是什麼,瞭解業務含義和統計方式對於咱們後續分析很是的重要,這決定了咱們對數據的處理方式。
例如:在電信行業裏面會有「高峯時期電話數」這個指標,設置這個指標的業務根據是什麼?例如:高峯時期的定義是從何時到何時?這個指標是按天統計,按周統計仍是按月統計?這個指標是計算呼入仍是呼出,仍是一併統計?
咱們還須要對數據進行必定的探索性分析。
一、通常咱們會先對數據質量進行分析,
(1)缺失值:對於分類字段,缺失值處理咱們能夠選擇衆數,連續字段能夠選擇平均值/中位數,或者經過迴歸進行插補。
(2)極值,離羣值:查看連續字段是否擁有極值和離羣值,咱們通常用n倍標準差定義。對於這些離羣值,咱們可選擇:刪除記錄,把離羣值進行代替,通常咱們能夠用公式代替:
另外,若是離羣值數量比較多,也能夠考慮單獨把離羣值數據單獨抽取出來單獨分析。
(3)咱們也須要查看分類型指標裏面的種類數量有多少:例如一個分類指標若是超過上百個分類級別的話,明顯就會存在問題,這時候咱們能夠考慮:過濾該字段,對字段採起合併等方式。這個問題在咱們研究商品分類中特別常見。
二、進一步地,咱們也能夠藉助分佈圖,箱線圖地查看數據的分佈狀況,查看數據分佈是否符合通常認知。
三、咱們能夠結合數據的偏度(標準化的三階原點矩)和峯度(標準化的四階原點矩)進行輔助分析,同時也會計算算式平均值(標準化的一階原點矩),中位數,1/4分位數以及3/4分位數等經常使用的統計指標。
四、在這個階段也能夠進行一些簡單的數據分析。
例如計算相關係數矩陣(統計指標之間的關係),也能夠簡單作一些t檢驗以及卡方檢驗幫助咱們進行一些變量篩選。另外值得注意的是,當數據分佈與業務認知存在必定衝突的時候,也不必定是數據質量存在問題,相反應該細心求證出現誤差的緣由,這些不一致的狀況或者說異常每每表明了一個好的切入點。