《數據挖掘:理論與算法》學習筆記(二)—數據預處理(上)

數據預處理過程 數據清洗—>數據轉換—>數據描述—>特徵選擇—>特徵提取 爲什麼要進行數據預處理 原始的數據不利於直接進行數據挖掘,因爲: 數據不完整 存在錯誤數據 數據存在重複信息 數據量過大 等等。。。 如何解決丟失的數據問題 進行選擇性忽視 人工補全(比如重新收集、經驗填充) 自動補全(利用數據的均值等) 等等。。。 離羣點(Outlier) 如何對這些離羣點進行檢測 離羣是相對的概念 局部
相關文章
相關標籤/搜索