SparkStreaming如何解決小文件問題

時間 2021-02-28

原文原文鏈接

使用sparkstreaming時，如果實時計算結果要寫入到HDFS，那麼不可避免的會遇到一個問題，那就是在默認情況下會產生非常多的小文件，這是由sparkstreaming的微批處理模式和DStream(RDD)的分佈式(partition)特性導致的，sparkstreaming爲每個partition啓動一個獨立的線程來處理數據，一旦文件輸出到HDFS，那麼這個文件流就關閉了，再來一個bat

>>阅读原文<<