1、髒數據處理數據庫
爲何要預處理數據?函數
如何預防髒數據?大數據
1. 處理數據缺失:優化
2. 處理數據重複:編碼
3. 處理數據錯誤:不一致spa
2、噪聲數據處理設計
1. 分箱:對象
把待處理的數據按照必定的規則放進一些箱子中,考察每個箱子中的數據,採用某種方法分別對各個箱子中的數據進行處理。索引
須要肯定的主要問題:分箱方法,即如何分箱;數據平滑方法,即如何對每一個箱子中的數據進行平滑處理。數據分析
分箱方法:
平滑處理:
2. 迴歸
發現兩個相關的變量間的變化模式,經過使數據適合一個函數來平滑數據,即利用擬合函數對數據進行平滑。
迴歸方法:線性方法;非線性方法。
3. 聚類
將物理的或抽象對象集合分組爲不一樣簇,找出並清除那些落在簇以外的值(鼓勵點),這些鼓勵點被視爲噪聲。
經過聚類分析發現異常數據:類似或向鄰近的數據聚合在一塊兒造成了各個聚類集合,而那些位於這些聚類集合以外的數據對象,被認爲是異常數據。
特色:直接造成簇並對簇進行描述,不須要任何先驗知識。
3、數據集成
模式匹配:整合不一樣數據源中的元數據。(A.user_id=B.customer_no)
數據冗餘:一個屬性能夠由另一個表導出。(平均月收入-月收入)
數據值衝突:來自不一樣數據源的屬性值不一樣。(人民幣-英鎊)
彙集:對數據進行彙總。(avg, count, sum, min, max)
數據概化:用更抽象(更高層次)的概念來取代低層次或數據層的數據對象。(城市->國家)
規範化:將數據按照比例進行縮放,使之落入一個特定的區域,以消除數值型屬性因大小不一而形成挖掘結果的誤差。(最小-最大規範化,零-均值規範化,小數定標規範化)
屬性構造:利用已有屬性集構造出新的屬性,並加入到現有屬性集合中以幫助挖掘更深層次的模式知識,提升挖掘結果準確性。(寬、高->面積)
4、數據規約
對大規模數據庫內容進行復雜的數據分析一般須要耗費大量的時間。數據規約技術用於幫助從原有龐大數據集中得到一個精簡的數據集合,並使用這一精簡數據集保持原有數據集的完整性,這樣在精簡數據集上進行數據挖掘效率更高,而且挖掘出來的結果與使用原有數據集所得到的結果基本相同。
標準:
方法:
5、數據建模
概念模型:實體及關聯關係
邏輯模型:數據實體細節(主鍵,外鍵,索引)
物理模型:數據的存儲方式(數據拆分,數據表空間,數據集成)