spark 處理小文件問題

coalesce與repartition  解決小文件問題 repartition(numPartitions: Int)   返回numPartitions分區個數的新RDD(或DataFrame)。   能夠增長或減小此RDD中的並行性級別,內部使用shuffle來從新分配數據。   若是要減小partition數量,可考慮使用`coalesce`,這能夠避免執行shuffle。  c
相關文章
相關標籤/搜索