3.4數據預處理(二) - 數據清洗(Data Cleaning)

簡介 由於數據源在實際生活中千奇百怪,因此不經任何處理就進入數據庫的數據很可能違背數據質量三要素的要求。用這樣的數據在進行後續的數據挖掘,其可靠性更加堪憂。雖然在數據挖掘中,均有過程用於處理缺失數據或異常值,但是這不過是在避免建模的過擬合。如若希望儘可能小讓缺失值、噪聲等髒數據影響數據挖掘的結果,更有效的方法應是提高數據質量,即進行數據清理過程。 一句話解釋版本: 數據清洗就是通過缺失值處理,噪聲
相關文章
相關標籤/搜索