在現實社會中的數據每每存在噪聲數據、缺失值和不一致數據的問題。爲了提升數據挖掘工做的效率和準確性,須要使用數據清理、數據集成、數據歸約和數據變換等方法對數據進行預處理操做。函數
數據質量的三個要素是:準確性、完整性和一致性。工具
數據清理試圖填充缺失值、光滑噪聲並識別離羣點、糾正數據中的不一致。blog
對於缺失值,一般包含如下一些作法:排序
噪聲數據是被測量的變量的隨機偏差或方差。下面列舉了一些「數據光滑」的技術。數據挖掘
1.分箱方法:效率
分箱方法經過考察數據的周圍的值來光滑有序數據值。下邊圖表示了「用箱均值」 和 「用箱邊界」 兩種光滑手段,將有序的9個數字排序後放入3個箱子內。基礎
2.迴歸:變量
用一個函數擬合數據來光滑數據。例如,線性迴歸是指找到擬合兩個屬性的最佳直線。方法
3.離羣點分析:im
經過聚類來檢測離羣點,通常認爲,落在簇以外的點就是離羣點。
數據清理過程的第一步是誤差檢測。若是進行誤差檢測呢? 首先應該瞭解元數據信息。例如,瞭解某個數據屬性的均值、中位數、標準差等。第2步就是數據變換(糾正誤差)了,可使用專門的工具,或者ETL來完成轉換步驟。
數據集成式合併來自多個數據源的數據,有效的數據集成能夠減小數據集的冗餘和不一致問題。
1. 實體識別問題:來自多個源的的等價實體如何纔可以匹配上 ?
2. 數據冗餘問題: