數據的清洗

數據清洗一是爲了解決數據質量問題,二是讓數據更加適合做挖掘 一、解決數據質量問題 數據的完整性,比如人的屬性中缺少性別、籍貫、年齡等 數據的唯一性,比如不同來源的數據出現重複的情況 數據的權威性,比如同一個指標出現多個來源的數據,且數值不一樣 數據的合法性,比如數據與常識不符,市區內開車速度到達了400km/h 數據的一致性,比如不同來源的不同指標,實際的內涵與表示意義是一樣的 數據清洗的結果是對
相關文章
相關標籤/搜索