Spark性能調優----算子filter過後使用coalesce減少分區數量

默認情況下,經過了這種filter之後,RDD中的每個partition的數據量,可能都不太一樣了。(原本每個partition的數據量可能是差不多的) 問題: 1、每個partition數據量變少了,但是在後面進行處理的時候,還是要跟partition數量一樣數量的task,來進行處理;有點浪費task計算資源。 2、每個partition的數據量不一樣,會導致後面的每個task處理每個part
相關文章
相關標籤/搜索