數據挖掘 自習筆記 第二章 數據處理實踐(上)

數據清洗中噪聲數據處理

(1)Bin 方法 :經過利用相應被平滑數據點的周圍點,對一組排序數據進行平滑。函數

如:有價格數據。.net

首先對價格數據進行排序,而後將其劃分紅若干高度的bin(即每一個bin包含三個數值)對象

這時既能夠利用每一個bin的均值進行平滑。排序

clip_image001

      1. 根據bin均值進行平滑,第一個bin中四、八、15的均值是9,因此能夠用9來替換。ip

      2. 根據bin邊界進行平滑,利用每一個bin的邊界值(最大或最小值)來替換該bin中的全部值。get

(2)聚類方法。類似或向鄰近的數據聚合成一塊兒造成各個聚類集合,而那些位於這些聚類集合外的數據對象,天然被認爲是異常數據。it

(3) 人機結合檢查方法。經過人魚計算機檢查結合方法,能夠幫助發現異常數據。cli

(4)迴歸方法。能夠利用擬合函數對數據進行平滑。例如藉助線性迴歸方法。float

 

數據集成與轉換

數據集成考慮的問題:方法

1. 模式集成

2. 冗餘問題。

利用相關分析方法能夠幫助發現一些數據冗餘狀況。例如:給出兩個屬性,擇根據這兩個屬性的數值分析出這兩個屬性劍的相互關係。屬性A,B之間的互相關係能夠根據如下計算公式得到。

clip_image002

A、B是屬性中的數據。

A、B減去的,分別是A、B的平均值。

σAσB 分別表示屬性A,B的標準方差。

若是r A,B >0, 則屬性A,B之間是正關聯,A增長,B也增長,反之則是負關聯

若是r A,B =0, 則A,B屬性相互獨立,二者沒有關係。

r A,B 絕對值越大,說明A,B關聯關係越密。

3.數據值衝突檢測與消除。

 

數據轉換處理

對於急於距離計算的挖掘,規格化方法能夠幫助消除因屬性取值範圍不一樣而影響挖掘結果的公正性。下面是三種規格化方法:

方法1:最大最小規格化方法。該方法對被初始數據進行一種線性轉換。

設minA 和 maxA 爲屬性A的最小和最大值。最大最小規格化方法屬性A的一個值v映射爲v且有v∈[new_ minA ,new_ maxA],具體映射計算公式以下:

clip_image003

實例:假設屬性income的最大最小值分別是12,000元與98,000元,若要利用最大最小規格化方法將屬性income的值映射到0至1的範圍內,那麼屬性income的73,600元將被轉化爲:

clip_image004

方法2:零均值規格化方法。該方法是根據屬性A的均值和誤差來對A進行規格化。屬性A的v值能夠經過如下計算公式得到其映射數值v。

clip_image005

其中v減去的是屬性A的均值,σA 是方差。這種規格化方法經常使用於屬性A最大值與最小值未知;或使用最大最小規格化方法時會出現異常數據的狀況。

實例2.2:假設屬性income的均值與方差分別是54,000元和16,000元,是用零均值規格化方法將73,000元的屬性income映射值爲:

clip_image006

方法3:十基數變換格式化方法。該方法經過移動屬性A值的小數位置來達到規格化的目的。屬性A的v值能夠經過如下公式計算映射值v。

clip_image007

其中的j爲使max(|v’|)<1 成立的最小值

實例2.3:假設屬性A的取值範圍是-986到917。屬性A絕對值得最大值爲986.採用十基數變換規格化方法,就是將屬性A的每一個值除以1000(即j=3)便可,所以-986映射爲-0.986。

相關文章
相關標籤/搜索