數據清洗和特徵選擇

數據清洗和特徵選擇 數據清洗 清洗過程 1、數據預處理: 選擇數據處理工具: 數據庫、Python相應的包; 查看數據的元數據及數據特徵; 2、清理異常樣本數據: 處理格式或者內容錯誤的數據; 處理邏輯錯誤數據:數據去重,去除/替換不合理的值,去除/重構不可靠的字段值; 處理不需要的數據:在進行該過程時,要注意備份原始數據; 處理關聯性驗證錯誤的數據:常應用於多數據源合併的過程中。 3、採樣: 數
相關文章
相關標籤/搜索