基於SparkStreaming的實時數據清洗

基於SparkStreaming的實時數據清洗 數據清洗, 是整個數據分析過程當中不可缺乏的一個環節,其結果質量直接關係到模型效果和最終結論。在實際操做中,數據清洗一般會佔據分析過程的50%—80%的時間。國外有些學術機構會專門研究如何作數據清洗,相關的書籍也很多。本文的背景是netflow數據流的實時清洗,相比於離線的數據清洗,實時數據清洗更傾向於數據的缺值過濾和數據合法性檢查以及對性能的苛求。
相關文章
相關標籤/搜索