大數據的預處理

一:爲什麼要預處理數據? (1)現實世界的數據是骯髒的(不完整,含噪聲,不一致) (2)沒有高質量的數據,就沒有高質量的挖掘結果(高質量的決策必須依賴於高質量的數據;數據倉庫需要對高質量的數據進行一致地集成) (3)原始數據中存在的問題: 不一致 —— 數據內含出現不一致情況 重複 不完整 —— 感興趣的屬性沒有 含噪聲 —— 數據中存在着錯誤、或異常(偏離期望值)的數據 高維度 二:數據預處理的
相關文章
相關標籤/搜索