數據整合和數據清洗

發現數據問題類型 髒數據或數據不正確 • 比如 ‘0’ 代表真實的0,還是代表缺失;Age = -2003 • 數據不一致  比如收入單位是萬元,利潤單位是元,或者一個單位是美元,一個是人民幣 • 數據重複 • 缺失值 • 離羣值 數據探索識別噪聲 利用圖形可以直觀快速地對數據進行初步分析: • 直方圖、餅圖、條形圖、折線圖、散點圖等 錯誤值處理 發現錯誤值只能通過描述性統計的方法,逐一覈實每個變
相關文章
相關標籤/搜索