數據分析之數據預處理

數據預處理的主要內容包括數據清洗、數據集成、數據變換和數據規約。web 數據清洗 數據清洗主要是刪除原始數據集的無關數據、重複數據,平滑噪聲數據,篩選掉與挖掘主題無關的數據,處理缺失值、異常值等.算法 缺失值處理 處理缺失值的方法可分爲3類:dom 刪除記錄 數據插補 不處理 若是存在大量缺失的列,能夠採用刪除含有缺失值的記錄的方法 其中經常使用的數據插補方法: 均值/中位數/衆數插補:根據屬性值
相關文章
相關標籤/搜索