數據分析與數據挖掘實踐(6)--數據清洗

數據樣本抽樣 樣本具有代表性(比例保持一致) 樣本比例平衡以及樣本不平衡時如何處理 儘量使用全量數據Hadoop spark 1.異常值(空值)處理 1.識別異常值和重複值 Pandas:isnull()/duplicated 2.直接丟棄 Pandas:drop()/dropna()/drop_duplicated() 3.異常值(空值)處理 當是否有異常當作一個新的屬性,代替原值 Pandas
相關文章
相關標籤/搜索