SparkStreaming如何解決小文件問題

使用sparkstreaming時,如果實時計算結果要寫入到HDFS,那麼不可避免的會遇到一個問題,那就是在默認情況下會產生非常多的小文件,這是由sparkstreaming的微批處理模式和DStream(RDD)的分佈式(partition)特性導致的,sparkstreaming爲每個partition啓動一個獨立的線程來處理數據,一旦文件輸出到HDFS,那麼這個文件流就關閉了,再來一個bat
相關文章
相關標籤/搜索