機器學習-常見的數據預處理

1、背景 原始數據存在的幾個問題:不一致;重複;含噪聲;維度高。web 1.1 數據挖掘中使用的數據的原則 儘量賦予屬性名和屬性值明確的含義; 去除唯一屬性; 去除重複性; 合理選擇關聯字段。 1.2 常見的數據預處理方法 數據清洗:數據清洗的目的不僅是要消除錯誤、冗餘和數據噪音,還要能將按不一樣的、不兼容的規則所得的各類數據集一致起來。 數據集成:將多個數據源中的數據合併,並存放到一個一致的數據
相關文章
相關標籤/搜索