自制數據挖掘工具分析北京房價 (二) 數據清洗

         上一節我們通過爬蟲工具爬取了近七萬條二手房數據,那麼這一節就對這些數據進行預處理,也就是所謂的ETL(Extract-Transform-Load)       一.ETL工具的必要性           數據分析的前提是數據清洗。不論如何高大上的算法,遇到錯誤數據,一個異常拋出來,絕對屍橫遍野。而你不能指望核心算法爲你處理錯誤或者短缺的數據。所以,數據清洗(ETL)就變得必不可
相關文章
相關標籤/搜索