數據挖掘筆記(三)—數據預處理

 

1.原始數據存在的幾個問題:不一致;重複;含噪聲;維度高。數據庫

 

2.數據預處理包含數據清洗、數據集成、數據變換和數據歸約幾種方法。函數

 

3.數據挖掘中使用的數據的原則編碼

 

應該是從原始數據中選取合適的屬性做爲數據挖掘屬性,這個選取過程應參考的原則是:儘量賦予屬性名和屬性值明確的含義;統一多數據源的屬性值編碼;去除唯一屬性;去除重複性;去除可忽略字段;合理選擇關聯字段。.net

 

4.處理空缺值的方法:忽略該記錄;去掉屬性;手工填寫空缺值;使用默認值;使用屬性平均值;使用同類樣本平均值;預測最可能的值。對象

 

5.噪聲數據的處理方法:分箱;聚類;計算機和人工檢查結合;迴歸blog

 

6.分箱:分箱方法是一種簡單經常使用的預處理方法,經過考察相鄰數據來肯定最終值。所謂「分箱」,實際上就是按照屬性值劃分的子區間,若是一個屬性值處於某個子區間範圍內,就稱把該屬性值放進這個子區間所表明的「箱子」內。把待處理的數據(某列屬性值)按照必定的規則放進一些箱子中,考察每個箱子中的數據,採用某種方法分別對各個箱子中的數據進行處理。在採用分箱技術時,須要肯定的兩個主要問題就是:如何分箱以及如何對每一個箱子中的數據進行平滑處理。排序

 

分箱的方法:有4種:等深分箱法、等寬分箱法、最小熵法和用戶自定義區間法。get

 

統一權重,也成等深分箱法,將數據集按記錄行數分箱,每箱具備相同的記錄數,每箱記錄數稱爲箱子的深度。這是最簡單的一種分箱方法。數學

 

統一區間,也稱等寬分箱法,使數據集在整個屬性值的區間上平均分佈,即每一個箱的區間範圍是一個常量,稱爲箱子寬度。it

 

用戶自定義區間,用戶能夠根據須要自定義區間,當用戶明確但願觀察某些區間範圍內的數據分佈時,使用這種方法能夠方便地幫助用戶達到目的。

 

例:客戶收入屬性income排序後的值(人民幣元):800 1000 1200 1500  1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的結果以下。

 

統一權重:設定權重(箱子深度)爲4,分箱後

 

箱1:800 1000 1200 1500

 

箱2:1500 1800 2000 2300 

 

箱3:2500 2800 3000 3500

 

箱4:4000 4500 4800 5000   

 

統一區間:設定區間範圍(箱子寬度)爲1000元人民幣,分箱後

 

箱1:800 1000 1200 1500 1500 1800

 

箱2:2000 2300 2500 2800 3000

 

箱3:3500 4000 4500

 

箱4:4800 5000 

 

用戶自定義:如將客戶收入劃分爲1000元如下、1000~2000、2000~3000、3000~4000和4000元以上幾組,分箱後

 

箱1:800 

 

箱2:1000 1200 1500 1500 1800 2000 

 

箱3:2300 2500 2800 3000  

 

箱4:3500 4000 

 

箱5:4500 4800 5000 

 

 

 

7.數據平滑方法:按平均值平滑、按邊界值平滑和按中值平滑。

 

⑴按平均值平滑 

 

對同一箱值中的數據求平均值,用平均值替代該箱子中的全部數據。 

 

⑵按邊界值平滑 

 

用距離較小的邊界值替代箱中每一數據。 

 

⑶按中值平滑 

 

取箱子的中值,用來替代箱子中的全部數據。 

 

8.聚類:將物理的或抽象對象的集合分組爲由相似的對象組成的多個類。

 

找出並清除那些落在簇以外的值(孤立點),這些孤立點被視爲噪聲。

 

9.迴歸;試圖發現兩個相關的變量之間的變化模式,經過使數據適合一個函數來平滑數據,即經過創建數學模型來預測下一個數值,包括線性迴歸和非線性迴歸。   

 

10.數據集成:將多文件或者多數據庫中的異構數據進行合併,而後存放在一個一致的數據存儲中。考慮如下幾個問題: 1.模式匹配2.數據冗餘3.數據值衝突 

 

11. 數據變換:1.平滑2.彙集3.數據概化4.規範化(1)最小-最大規範化(2)零-均值規範化(3)小數定標規範化5.屬性構造

 

12.數據集成:將多文件或者多數據庫中的異構數據進行合併,而後存放在一個一致的數據存儲中。考慮如下幾個問題: 1.模式匹配2.數據冗餘3.數據值衝突 

 

13.數據歸約:目的是爲了得到比原始數據小的多的,但不破壞數據完整性的挖掘數據集,該數據集能夠獲得與原始數據相同的挖掘結果。 

 

數據歸約的方法: 1.數據立方體彙集:把彙集的方法用於數據立方體。2.維歸約:檢測並刪除不相關、弱相關或冗餘屬性。3.數據壓縮:選擇正確的編碼壓縮數據集。4.數值壓縮:用較小的數據表示數據,或採用較短的數據單位,或者用數據模型表明數據。5.離散化和概念分層生成:使連續的數據離散化,用肯定的有限個區段值代替原始值;概念分層是指用較高層次的概念替換低層次的概念,以此來減小取值個數。

 

14.數據立方體彙集 :是數據的多維建模和表示,由維和事實組成。 

 

維歸約:去掉不相關的屬性,減小數據挖掘處理的數據量。 

 

屬性子集選擇的基本方法包括如下幾種: 1.逐步向前選擇2.逐步向後刪除3.向前選擇和向後刪除結合4.斷定樹概括5.基於統計分析的歸約   

 

數據壓縮:方法分爲兩類:無損壓縮和有損壓縮

 

數值歸約經常使用的方法: 1.直方圖2.聚類3.抽樣:不放回簡單隨機抽樣、放回簡單隨機抽樣、聚類抽樣和分層抽樣4.線性迴歸5.非線性迴歸     

 

15.數據變換涉及如下幾個方面:1.平滑2.彙集3.數據概化4.規範化(1)最小-最大規範化(2)零-均值規範化(3)小數定標規範化5.屬性構造

 

*規範化:(1)最小—最大規範化。原取值區間 [old_min,old_max],規範化後的新的取值區間[new_min,new_max]。

 

x’=  其中:x是屬性的真實值,x’是規範化後的值。

 

例如:「客戶背景數據」表中的客戶月收入income屬性的實際值範圍爲[12000,98000],要把這個屬性值規範到[0,1],對屬性值73600應用上述公式:

 

x’=(1.0-0)+0=0.716

 

根據精度要求保留小數(假設精度要求0.01),最終取值0.72就是屬性值73600規範化後的值。

 

 (2)零—均值規範化(z—score規範化),是根據屬性值的平均值和標準差進行規範化,即:

 

x’=   =  =    爲全部樣本屬性值的平均值,爲樣本的標準差。當屬性值範圍未知的時候,可使用此方法進行規範化。

 

    例:假設某屬性的平均值和標準差分別爲80、25,採用零-均值規範化66爲:x’==-0.56

 

(3)小數定標規範化:經過移動屬性A的小數點位置進行規範化 。

 

x’= 爲知足式<1的最小整數。

 

例:假設某屬性規範化前的取值範圍爲[-120,110],採用小數定標規範化66。因爲該屬性的最大絕對值爲120,則由<1可得出=3,所以,66規範化後爲:x’==0.066

相關文章
相關標籤/搜索