爲何要進行數據的預處理呢?最主要的緣由是數據質量沒法知足數據挖掘的要求。工具
數據預處理的主要任務包括:數據清洗 數據集成 數據轉換 數據歸約 數據離散化 數據挖掘
數據清洗 填補缺失值 對有噪聲的數據進行平滑處理 識別並移除數據中的離羣點並解決數據不一致性的問題重構
數據集成:解決數據在不一樣數據源中的格式和表示的不一樣 方法
數據轉化:對數據的值進行轉換 K均值聚類和貝葉斯分類對數值的轉換是很是必要的 技術
數據歸約 進行簡化的技術 數據
數據離散化 是對連續數據值進行離散化的過程 也稱爲量化 規範化
數據預處理最終的目的:將不完整不一致不許確的數據形成的不利影響儘量地消除使得後續的數據挖掘的工做可以的獲得高質量的結果 工作
描述數據的中心趨勢:中位數 衆數 平均數 壓縮
數據的分散程度 分位數 方差 標準差
其餘的方式:直方圖 分位數圖 Q-Q圖 散點圖
數據清洗中 數據缺失的處理:1,捨棄 2,人工填補缺失值,3,自動對缺失值進行填補(通常採用平均值進行填補)
處理噪聲數據:分箱,聚類分析,迴歸分析
數據集成和轉換
處理數據冗餘性的兩種數據相關性的分析工具:皮爾森相關係數和卡方檢驗
數據轉換:包括平滑 聚合 泛化,規範化,屬性和特徵的重構等操做
數據歸約和變換:1.數據立方體聚合 2,特徵選擇(向前 向後 決策樹概括方法)3,數據壓縮4.迴歸分析 5,聚類 6.採樣
數據離散化:基於信息增益的離散化 基於卡方檢驗的離散化 基於天然分區的離散化