數據分析與挖掘(數據預處理)

在數據挖掘中,海量的原始數據存在着大量不完整(有缺失)、不一致、又異常的數據,影響數據挖掘建模的執行效率,甚至導致數據挖掘失敗,所以數據的預處理尤爲重要。 一、數據清洗 主要是刪除原始數據中的無關數據、重複數據、噪聲數據等,處理缺失值、異常值。 處理缺失值的方法分爲三類;刪除數據、數據插補、不處理。 其中插補方法包括:均值、中位數、衆數、使用固定值、最近鄰插值、迴歸方法、插值法等等 異常值處理:在
相關文章
相關標籤/搜索