etl:數據清洗的一些梳理

數據清洗, 是整個數據分析過程中不可缺少的一個環節,其結果質量直接關係到模型效果和最終結論。在實際操作中,數據清洗通常會佔據分析過程的50%—80%的時間。國外有些學術機構會專門研究如何做數據清洗,相關的書籍也不少。   (美亞搜data cleaning的結果,可以看到這書還挺貴)   我將在這篇文章中,嘗試非常淺層次的梳理一下數據清洗過程,供各位參考。 照例,先上圖:   預處理階段 預處理階
相關文章
相關標籤/搜索