數據挖掘工做流

時間 2019-11-16

標籤數據挖掘简体版

原文原文鏈接

目前帶着一個小組在作全面的用戶畫像的工做，很多同窗都是第一次接觸數據挖掘的工做。因而總結了一個較爲簡單，通用的數據挖掘工做流，也貼出做爲本身的工做結果吧。python

數據挖掘工做流
=========
#### 1 收集數據
收集數據通常是補充外部數據，包括採用爬蟲和接口，獲取，補充目前數據不足部分。Python scrapy,requests是很好的工具。算法

#### 2 準備數據
主要包括數據清洗，預處理，錯值糾正，缺失值填補。連續值離散化，去掉異常值，以及數據歸一化的過程。同時須要根據準備採用的挖掘工具準備恰當的數據格式。dom

#### 3 分析數據
經過初步統計、分析以及可視化，或者是探索性數據分析工具，獲得初步的數據概況。分析數據的分佈，質量，可靠程度，實際做用域，以肯定下一步的算法選擇。 R的ggplot,python的matplotlib,js 的leaflet,d3都是很好的可視化工具。scrapy

#### 4 訓練算法
整個工做流最核心的一步，根據現有數據選擇算法，生成訓練模型。主要是算法選擇和參數調整
1. 算法的選擇，須要對算法性能和精度以及編碼實現難度進行衡量和取捨。 (甚至算法工具箱對數據集的限制狀況都是算法選擇考慮的內容)。實際工程上，不考慮算法複雜度超過O(N^2)的算法。Java的Weka和Python的Scipy是很好的數據挖掘分析工具，通常都會在小數據集作算法選擇的預研。工具

2. 參數調整。這是一門神奇的技能，只能在實際過程當中體會。性能

#### 5 測試算法
這一步主要是針對監督算法(分類,迴歸)，爲了防止模型的Overfit，須要測試算法模型的覆蓋能力和性能。方法包括Holdout，還有random subsampling.
非監督算法(聚類)，採用更加具體的指標，包括熵,純度,精度,召回等。測試

#### 6 使用,解釋,修正算法
數據挖掘不是一個靜態的過程，須要不斷對模型從新評估，衡量，修正。算法模型的生命週期也是一個值得探討的話題。編碼