python--數據清洗

1.數據錯誤: 錯誤類型 – 髒數據或錯誤數據 • 比如, Age = -2003 – 數據不正確 • ‘0’ 代表真實的0,還是代表缺失 – 數據不一致 • 比如收入單位是萬元,利潤單位是元,或者一個單位是 美元,一個是人民幣 – 數據重複 2.缺失值處理: 處理原則 1)缺失值少於20% •連續變量使用均值或中位數填補 •分類變量不需要填補,單算一類即可,或者用衆數填補 2)缺失值在20%-8
相關文章
相關標籤/搜索