2. 數據挖掘入門之數據清洗

數據清洗作用是利用有關技術如數理統計、數據挖掘或預定義的清洗規則將髒數據轉化爲滿足數據質量要求的數據。主要包括缺失值處理,異常值處理,數據分桶,特徵歸一化/標準化等流程 1. 缺失值處理 不處理: 針對xgboost等樹模型,有些模型有處理缺失的機制,所以可以不處理。 刪除該列: 如果缺失的太多,可以考慮刪除該列 插值補全: 均值、中位數、衆數、建模預測、多重插補,通過感知補全或矩陣補全等高維映射
相關文章
相關標籤/搜索