算法:數據預處理

原因:數據存在噪聲,數據缺失值,數據不一致,數據庫龐大,異種數據源等問題。 目的:解決上述問題,提高數據挖掘的質量。 方法:數據清理,數據集成,數據歸約,數據變換和數據離散化。 數據質量:準確性、完整性、一致性、時效性、可信性,可解釋性。 一、數據清理 1.    缺失值:許多元組的屬性沒記錄值(可能缺失,可能故意留白後期填寫。) (1)忽略元組:適用於元組有多個缺少值,每個屬性缺失值的百分比變化
相關文章
相關標籤/搜索