如何應對SparkSQL DataFrame保存到hdfs時出現的過多小文件問題

緣由就不解釋了,總之是由於多線程並行往hdfs寫形成的(由於每一個DataFrame/RDD分紅若干個Partition,這些partition能夠被並行處理)。多線程 其結果就是一個存下來的文件,實際上是hdfs中一個目錄,在這個目錄下才是衆多partition對應的文件,最壞的狀況是出現好多size爲0的文件。函數 若是確實想避免小文件,能夠在save以前把DaraFrame的partitio
相關文章
相關標籤/搜索