數據分析與數據挖掘實踐(6)--數據清洗

時間 2020-12-30

原文原文鏈接

數據樣本抽樣樣本具有代表性（比例保持一致）樣本比例平衡以及樣本不平衡時如何處理儘量使用全量數據Hadoop spark 1.異常值（空值）處理 1.識別異常值和重複值 Pandas：isnull（）/duplicated 2.直接丟棄 Pandas：drop（）/dropna（）/drop_duplicated() 3.異常值（空值）處理當是否有異常當作一個新的屬性，代替原值 Pandas

>>阅读原文<<