數據預處理與關聯

數據預處理與關聯 數據質量的含義 正確性 一致性 完整性 可靠性 在建立數據倉庫的時候,由於各種原因造成裏數據錯誤的不可避免性,所以便需要對數據進行預處理。 形式 數據清理 缺失值:忽略、人工填寫、全局變量填充、屬性平均值填充、最可能值填充、所有同類樣本平均值填充。 噪聲數據:分箱(按箱平均值、按箱中指、按箱邊界)、聚類、迴歸、計算機和人工檢查結合 數據集成 實體識別 屬性冗餘 數據重複 數據值衝
相關文章
相關標籤/搜索