Spark項目實戰-實際項目中常見的優化點-filter過後使用coalesce減少分區數量

時間 2021-07-14

原文原文鏈接

如上，默認情況下，經過了filter操作之後RDD中的每個partition的數據量可能都不太一樣了。（原本每個partition的數據量可能是差不多的） 1、這種情況下存在兩個問題：（1）每個partition數據量變少了，但是在後面進行處理的時候，還是要跟partition數量一樣數量的task，來進行處理；有點浪費task計算資源。（2）每個partition的數據量不一樣，會導致後面的

>>阅读原文<<