Spark性能調優----算子filter過後使用coalesce減少分區數量

時間 2021-01-16

原文原文鏈接

默認情況下，經過了這種filter之後，RDD中的每個partition的數據量，可能都不太一樣了。（原本每個partition的數據量可能是差不多的）問題： 1、每個partition數據量變少了，但是在後面進行處理的時候，還是要跟partition數量一樣數量的task，來進行處理；有點浪費task計算資源。 2、每個partition的數據量不一樣，會導致後面的每個task處理每個part

>>阅读原文<<