數據挖掘筆記（三）—數據預處理

時間 2019-11-20

標籤數據挖掘筆記數據預處理简体版

原文原文鏈接

1.原始數據存在的幾個問題：不一致；重複；含噪聲；維度高。數據庫

2.數據預處理包含數據清洗、數據集成、數據變換和數據歸約幾種方法。函數

3.數據挖掘中使用的數據的原則編碼

應該是從原始數據中選取合適的屬性做爲數據挖掘屬性，這個選取過程應參考的原則是：儘量賦予屬性名和屬性值明確的含義；統一多數據源的屬性值編碼；去除唯一屬性；去除重複性；去除可忽略字段；合理選擇關聯字段。.net

4.處理空缺值的方法：忽略該記錄；去掉屬性；手工填寫空缺值；使用默認值；使用屬性平均值；使用同類樣本平均值；預測最可能的值。對象

5.噪聲數據的處理方法：分箱；聚類；計算機和人工檢查結合；迴歸blog

6.分箱：分箱方法是一種簡單經常使用的預處理方法，經過考察相鄰數據來肯定最終值。所謂「分箱」，實際上就是按照屬性值劃分的子區間，若是一個屬性值處於某個子區間範圍內，就稱把該屬性值放進這個子區間所表明的「箱子」內。把待處理的數據（某列屬性值）按照必定的規則放進一些箱子中，考察每個箱子中的數據，採用某種方法分別對各個箱子中的數據進行處理。在採用分箱技術時，須要肯定的兩個主要問題就是：如何分箱以及如何對每一個箱子中的數據進行平滑處理。排序

分箱的方法：有4種：等深分箱法、等寬分箱法、最小熵法和用戶自定義區間法。get

統一權重，也成等深分箱法，將數據集按記錄行數分箱，每箱具備相同的記錄數，每箱記錄數稱爲箱子的深度。這是最簡單的一種分箱方法。數學

統一區間，也稱等寬分箱法，使數據集在整個屬性值的區間上平均分佈，即每一個箱的區間範圍是一個常量，稱爲箱子寬度。it

用戶自定義區間，用戶能夠根據須要自定義區間，當用戶明確但願觀察某些區間範圍內的數據分佈時，使用這種方法能夠方便地幫助用戶達到目的。

例：客戶收入屬性income排序後的值（人民幣元）：800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000，分箱的結果以下。

統一權重：設定權重（箱子深度）爲4，分箱後

箱1：800 1000 1200 1500

箱2：1500 1800 2000 2300

箱3：2500 2800 3000 3500

箱4：4000 4500 4800 5000

統一區間：設定區間範圍（箱子寬度）爲1000元人民幣，分箱後

箱1：800 1000 1200 1500 1500 1800

箱2：2000 2300 2500 2800 3000

箱3：3500 4000 4500

箱4：4800 5000

用戶自定義：如將客戶收入劃分爲1000元如下、1000~2000、2000~3000、3000~4000和4000元以上幾組，分箱後

箱1：800

箱2：1000 1200 1500 1500 1800 2000

箱3：2300 2500 2800 3000

箱4：3500 4000

箱5：4500 4800 5000

7.數據平滑方法：按平均值平滑、按邊界值平滑和按中值平滑。

⑴按平均值平滑

對同一箱值中的數據求平均值，用平均值替代該箱子中的全部數據。

⑵按邊界值平滑

用距離較小的邊界值替代箱中每一數據。

⑶按中值平滑

取箱子的中值，用來替代箱子中的全部數據。

8.聚類：將物理的或抽象對象的集合分組爲由相似的對象組成的多個類。

找出並清除那些落在簇以外的值（孤立點），這些孤立點被視爲噪聲。

9.迴歸；試圖發現兩個相關的變量之間的變化模式，經過使數據適合一個函數來平滑數據，即經過創建數學模型來預測下一個數值，包括線性迴歸和非線性迴歸。

10.數據集成：將多文件或者多數據庫中的異構數據進行合併，而後存放在一個一致的數據存儲中。考慮如下幾個問題： 1.模式匹配2.數據冗餘3.數據值衝突

11. 數據變換：1.平滑2.彙集3.數據概化4.規範化（1）最小-最大規範化（2）零-均值規範化（3）小數定標規範化5.屬性構造

12.數據集成：將多文件或者多數據庫中的異構數據進行合併，而後存放在一個一致的數據存儲中。考慮如下幾個問題： 1.模式匹配2.數據冗餘3.數據值衝突

13.數據歸約：目的是爲了得到比原始數據小的多的，但不破壞數據完整性的挖掘數據集，該數據集能夠獲得與原始數據相同的挖掘結果。

數據歸約的方法： 1.數據立方體彙集：把彙集的方法用於數據立方體。2.維歸約：檢測並刪除不相關、弱相關或冗餘屬性。3.數據壓縮：選擇正確的編碼壓縮數據集。4.數值壓縮：用較小的數據表示數據，或採用較短的數據單位，或者用數據模型表明數據。5.離散化和概念分層生成：使連續的數據離散化，用肯定的有限個區段值代替原始值；概念分層是指用較高層次的概念替換低層次的概念，以此來減小取值個數。

14.數據立方體彙集：是數據的多維建模和表示，由維和事實組成。

維歸約：去掉不相關的屬性，減小數據挖掘處理的數據量。

屬性子集選擇的基本方法包括如下幾種： 1.逐步向前選擇2.逐步向後刪除3.向前選擇和向後刪除結合4.斷定樹概括5.基於統計分析的歸約

數據壓縮：方法分爲兩類：無損壓縮和有損壓縮

數值歸約經常使用的方法: 1.直方圖2.聚類3.抽樣：不放回簡單隨機抽樣、放回簡單隨機抽樣、聚類抽樣和分層抽樣4.線性迴歸5.非線性迴歸

15.數據變換涉及如下幾個方面：1.平滑2.彙集3.數據概化4.規範化（1）最小-最大規範化（2）零-均值規範化（3）小數定標規範化5.屬性構造

*規範化：(1)最小—最大規範化。原取值區間 [old_min，old_max]，規範化後的新的取值區間[new_min，new_max]。

x’= 其中：x是屬性的真實值，x’是規範化後的值。

例如：「客戶背景數據」表中的客戶月收入income屬性的實際值範圍爲[12000，98000]，要把這個屬性值規範到[0，1]，對屬性值73600應用上述公式：

x’=(1.0-0)+0=0.716

根據精度要求保留小數（假設精度要求0.01），最終取值0.72就是屬性值73600規範化後的值。

(2)零—均值規範化（z—score規範化），是根據屬性值的平均值和標準差進行規範化，即：