數據挖掘---數據預處理

數據會收到噪聲、缺失值和不一致數據的侵擾。數據預處理技術:數據清理可以清除數據中的噪聲;數據集成可以將數據由多個數據源合併成一個一致的數據存儲;數據變換可以將數據壓縮到較小的區間如0-1;數據歸納可以通過如聚集、刪除榮譽特徵或聚類來降低數據的規模。 數據清理---缺失值 忽略元組:不能使用該元組的剩餘屬性值。除非元組有多個屬性缺少值,不然該方法不是很有效 人工填寫缺失值:當數據集很大,缺失值很多時
相關文章
相關標籤/搜索