數據挖掘概念與技術

3.數據預處理:

在現實社會中的數據每每存在噪聲數據、缺失值和不一致數據的問題。爲了提升數據挖掘工做的效率和準確性,須要使用數據清理、數據集成、數據歸約和數據變換等方法對數據進行預處理操做。函數

數據質量的三個要素是:準確性、完整性和一致性工具

3.1 數據清理

數據清理試圖填充缺失值、光滑噪聲並識別離羣點、糾正數據中的不一致。blog

3.1.1 缺失數據

對於缺失值,一般包含如下一些作法:排序

  1. 忽略元組。(該方法比較暴力,在缺失幾個字段時,直接摒棄這行數據記錄)
  2. 人工填寫缺失值。
  3. 使用一個全局常量填充缺失值。(例如,統一替換缺失的值爲NULL)
  4. 利用屬性的中心度量(平均值/中位數)填充缺失值。 (例如,某位僱員的年收入字段缺失,利用全部僱員的年收入平均值後者中位數填充)
  5. 使用與給定元組同一類的全部樣本的屬性均值或者中位數填充。(相比4更加合理,例如僱員的職位是基礎工程師,那麼拿全部基礎工程師的年收入均值或者中位數填充)
  6. 使用最可能的值填充。(得到最可能的值的方法,包括使用迴歸、貝葉斯形式化的方法基於推理工具或者決策樹概括)

3.1.2 噪聲數據

噪聲數據是被測量的變量的隨機偏差或方差。下面列舉了一些「數據光滑」的技術。數據挖掘

1.分箱方法:效率

分箱方法經過考察數據的周圍的值來光滑有序數據值。下邊圖表示了「用箱均值」 和 「用箱邊界」 兩種光滑手段,將有序的9個數字排序後放入3個箱子內。基礎

 

2.迴歸:變量

用一個函數擬合數據來光滑數據。例如,線性迴歸是指找到擬合兩個屬性的最佳直線。方法

3.離羣點分析:im

經過聚類來檢測離羣點,通常認爲,落在簇以外的點就是離羣點。

3.1.3 數據清理過程

數據清理過程的第一步是誤差檢測。若是進行誤差檢測呢? 首先應該瞭解元數據信息。例如,瞭解某個數據屬性的均值、中位數、標準差等。第2步就是數據變換(糾正誤差)了,可使用專門的工具,或者ETL來完成轉換步驟。

3.2 數據集成

數據集成式合併來自多個數據源的數據,有效的數據集成能夠減小數據集的冗餘和不一致問題。

1. 實體識別問題:來自多個源的的等價實體如何纔可以匹配上 ?

2. 數據冗餘問題:

相關文章
相關標籤/搜索