如何應對SparkSQL DataFrame保存到hdfs時出現的過多小文件問題

時間 2019-12-07

標籤如何應對 sparksql dataframe 保存 hdfs 出現過多文件問題欄目 Spark 简体版

原文原文鏈接

緣由就不解釋了，總之是由於多線程並行往hdfs寫形成的（由於每一個DataFrame/RDD分紅若干個Partition，這些partition能夠被並行處理）。多線程其結果就是一個存下來的文件，實際上是hdfs中一個目錄，在這個目錄下才是衆多partition對應的文件，最壞的狀況是出現好多size爲0的文件。函數若是確實想避免小文件，能夠在save以前把DaraFrame的partitio

>>阅读原文<<