BAT機器學習特徵工程工作經驗總結(二)如何做數據清洗和預處理(附python代碼)

這篇是展示平時工作中如何做數據清理和預處理。 一般數據清理和預處理的流程是: 數據加載與粗略查看 處理丟失的數據 處理離羣點 數據統計 特徵值的合併、連接 數據轉換、標準化、歸一化 去除常變量 下面會拿熱門的鐵達尼號等數據做示範: 1.數據加載魚粗略查看 在pandas讀進來數據一個train後,train的格式爲DataFrame,調用下面的幾個方法就可以大致瞭解我們得到的數據是什麼,有什麼特徵
相關文章
相關標籤/搜索