Spark性能調優-----算子調優（三）filter與coalesce的配合使用

時間 2021-01-16

原文原文鏈接

在Spark任務中我們經常會使用filter算子完成RDD中數據的過濾，在任務初始階段，從各個分區中加載到的數據量是相近的，但是一旦進過filter過濾後，每個分區的數據量有可能會存在較大差異，如圖2-6所示：根據圖2-6我們可以發現兩個問題：每個partition的數據量變小了，如果還按照之前與partition相等的task個數去處理當前數據，有點浪費task的計算資源；每個partit

>>阅读原文<<