數據預處理的步驟

數據清理–>數據集成 —>數據歸約–>數據變換 1.數據清理 就是處理髒數據,包括填寫缺失值、清除噪聲數據(降噪)、糾正不一致數據、識別或刪除離羣點等。常用工具例如:ETL工具 2.數據集成(data integration) 集成多個數據庫數據。將數據由多個數據源合併成一個一致數據存儲,如:數據倉庫。 【注意】不同數據庫相同字段可能具有不同的名字,導致不一致和冗餘,所以在爲數倉做準備數據時,數據
相關文章
相關標籤/搜索