Spark項目實戰-實際項目中常見的優化點-filter過後使用coalesce減少分區數量

如上,默認情況下,經過了filter操作之後RDD中的每個partition的數據量可能都不太一樣了。(原本每個partition的數據量可能是差不多的) 1、這種情況下存在兩個問題: (1)每個partition數據量變少了,但是在後面進行處理的時候,還是要跟partition數量一樣數量的task,來進行處理;有點浪費task計算資源。 (2)每個partition的數據量不一樣,會導致後面的
相關文章
相關標籤/搜索