數據清洗-缺失值處理

爲什麼需要清洗數據?   我們拿到的數據,無論是結構化的、半結構化的還是非結構化的數據,都是一個天生的畸形兒,從出生的那一刻就帶來一身「疾病」。常常面臨的問題主要包括,但不僅僅是,以下問題:   數據不完整 經常遇見比如人物屬性字段值:性別,姓名,年齡,學歷等,有缺失情況。一條記錄,常常不是缺胳膊就是少腿,你還不能直接把它槍斃掉。   數據有重複 所有字段的值都相等的重複值是一定要剔除的,根據不同
相關文章
相關標籤/搜索