11 數據清洗

在數據分析過程中,數據清洗在時間上佔到了80%。 數據質量的準則(「完全合一」) (1)完整性:單條數據是否存在空值,統計的字段是否完善。 (2)全面性:觀察某一列的全部數值,通過常識來判斷該列是否有問題。 (3)合法性:數據的類型、內容、大小的合法性。 (4)唯一性:數據是否存在重複記錄 數據清理要使數據標準、趕緊、連續,爲後續數據統計、數據挖掘做好準備。 1、完整性 問題1:缺失值 解決辦法:
相關文章
相關標籤/搜索