數據清洗與規約方法

1、髒數據處理數據庫

爲何要預處理數據?函數

  • 數據缺失:記錄爲空&屬性爲空
  • 數據重複:徹底重複&不徹底重複
  • 數據錯誤:異常值&不一致
  • 數據不可用:數據正確但不可用

如何預防髒數據?大數據

  • 制定數據標準
  • 優化系統設計

1.  處理數據缺失:優化

  • 忽略該記錄
  • 使用默認值
  • 使用屬性平均值
  • 使用同類樣本平均值
  • 預測最可能的值

2.  處理數據重複:編碼

  • 刪除徹底重複的記錄
  • 合併不一樣的表,增長部分冗餘屬性

3.  處理數據錯誤:不一致spa

  • 制定清洗規則,進行匹配
  • 經過統計描述,找到異常值

 

2、噪聲數據處理設計

1.  分箱:對象

把待處理的數據按照必定的規則放進一些箱子中,考察每個箱子中的數據,採用某種方法分別對各個箱子中的數據進行處理。索引

須要肯定的主要問題:分箱方法,即如何分箱;數據平滑方法,即如何對每一個箱子中的數據進行平滑處理。數據分析

分箱方法:

  • 等深分箱法(統一權重):按記錄行數分箱,每箱具備相同的記錄數,每箱記錄數稱爲箱的權重,也稱爲箱子的深度。每一個箱子具備相同的記錄數。
  • 等寬分箱法(統一區間):在整個屬性值的區間上平均分佈,即每一個箱的區間範圍是一個常量,稱爲箱子寬度。不能保證每一個箱子中樣本數一致。
  • 用戶自定義區間:用戶根據須要自定義區間。

平滑處理:

  • 按平均值平滑:對同一箱子中的數據求平均值,用平均值代替該箱子中的全部數據。
  • 按邊界值平滑:用距離較小的邊界值代替箱中的每一數據。
  • 按中指平滑:取箱子的中值,用來替代箱子中的全部數據。

2.  迴歸

發現兩個相關的變量間的變化模式,經過使數據適合一個函數來平滑數據,即利用擬合函數對數據進行平滑。

迴歸方法:線性方法;非線性方法。

3.  聚類

將物理的或抽象對象集合分組爲不一樣簇,找出並清除那些落在簇以外的值(鼓勵點),這些鼓勵點被視爲噪聲。

經過聚類分析發現異常數據:類似或向鄰近的數據聚合在一塊兒造成了各個聚類集合,而那些位於這些聚類集合以外的數據對象,被認爲是異常數據。

特色:直接造成簇並對簇進行描述,不須要任何先驗知識。

 

3、數據集成

模式匹配:整合不一樣數據源中的元數據。(A.user_id=B.customer_no)

數據冗餘:一個屬性能夠由另一個表導出。(平均月收入-月收入)

數據值衝突:來自不一樣數據源的屬性值不一樣。(人民幣-英鎊)

彙集:對數據進行彙總。(avg, count, sum, min, max)

數據概化:用更抽象(更高層次)的概念來取代低層次或數據層的數據對象。(城市->國家)

規範化:將數據按照比例進行縮放,使之落入一個特定的區域,以消除數值型屬性因大小不一而形成挖掘結果的誤差。(最小-最大規範化,零-均值規範化,小數定標規範化)

屬性構造:利用已有屬性集構造出新的屬性,並加入到現有屬性集合中以幫助挖掘更深層次的模式知識,提升挖掘結果準確性。(寬、高->面積)

 

4、數據規約

對大規模數據庫內容進行復雜的數據分析一般須要耗費大量的時間。數據規約技術用於幫助從原有龐大數據集中得到一個精簡的數據集合,並使用這一精簡數據集保持原有數據集的完整性,這樣在精簡數據集上進行數據挖掘效率更高,而且挖掘出來的結果與使用原有數據集所得到的結果基本相同。

標準:

  • 用於數據規約的時間不該當超過或「抵消」在規約後的數據上挖掘節省的時間
  • 規約獲得的數據比原數據小得多,但能夠產生相同或幾乎相同的分析結果

方法:

  • 數據立方體彙集:對某一維度求和。
  • 維規約:去掉無關屬性。(逐步向前選擇,逐步向後刪除)
  • 數據壓縮:用數據編碼或變換,獲得原始數據的壓縮表示。(主成分分析,小波變換)
  • 數值規約
  • 離散化和概念分層生成

 

5、數據建模

概念模型:實體及關聯關係

邏輯模型:數據實體細節(主鍵,外鍵,索引)

物理模型:數據的存儲方式(數據拆分,數據表空間,數據集成)

相關文章
相關標籤/搜索