數據挖掘步驟

一.如今我主要講解數據挖掘的基本規範流程算法

數據挖掘一般須要數據收集,數據集成,數據規約,數據清理,數據變換,數據挖掘實施過程,模式評估和知識表示數據庫

1.數據收集:根據所得的數據,抽象出數據的特徵信息,將收集到的信息存入數據庫。選擇一種合適的數據存儲和管理的數據倉庫類型工具

2.數據集成:把不一樣來源,格式的數據進行分類數據分析

3.數據規約:當數據量和數據的值比較大的時候,咱們能夠用規約技術來獲得數據集的規約表示,好比(數據值-數據平均值)/數據方差,這是數據就變小了不少但接近原數據的完整性,規約後數據挖掘的結果和規約前的結果基本一致。數據挖掘

4.數據清理:有些數據是不完整的如:有些有缺失值(值不存在),有些含噪音(錯誤,孤立點),有些是不一致的(如單位不一樣等),咱們能夠使用工具進行數據清理,獲得完整,正確,一致的數據。圖像處理

5.數據變換:經過平滑彙集,數據概化,規範化等方式將數據轉換成適用於數據挖掘的數據集。可視化

6.特徵提取或特徵選擇:特徵提取多應用於計算機視覺和圖像處理中,特徵選擇是提出不相關和冗餘的特徵,防止過擬合,提升模型精確度,經常使用方法有PCA等。方法

7.數據挖掘過程:分析數據倉庫中的數據信息,選擇合適的數據挖掘工具,應用統計方法,使用相應的數據挖掘算法。。技術

8.從業務上,驗證數據分析和數據挖掘的結果正確性。統計

9.知識表示,將數據挖掘所得結果以可視化的方式呈現給用戶。

 

在數據挖掘中若是沒有獲得理想的結果,須要重複執行以上步驟,步驟2,3,4,5均屬於預處理過程,數據挖掘大部分花在數據預處理部分。

 

 

 

二.數據挖掘算法及實現

分類:隨機森林用於多分類,決策樹會產生過擬合,logistic迴歸經常使用於二分類,獲得類的機率

 

 

聚類:經常使用的聚類有k-means.

 

 

預測:迴歸模型,變係數單指數模型

相關文章
相關標籤/搜索