讀《python數據挖掘與分析實戰》之五

接上一篇 異常值處理 在數據預處理,異常值是否剔除,需視具體情況而定,因爲異常值可能蘊含着有用的信息 將含有異常值的記錄直接刪除的方法簡單易行,但缺點也很明顯,在觀測值很少的情況下,這種刪除會造成樣本量不足,可能會改變變量的原有分佈從而造成分析結果的不確定,視爲缺失值處理的好處是可以利用現有變量的信息,對異常值進行填補 數據集成 數據挖掘需要的數據往往分佈在不同的數據源中,數據集成就是將多個數據源
相關文章
相關標籤/搜索