Spark性能調優-----算子調優（五）reduceByKey本地聚合

時間 2021-01-19

原文原文鏈接

reduceByKey相較於普通的shuffle操作一個顯著的特點就是會進行map端的本地聚合，map端會先對本地的數據進行combine操作，然後將數據寫入給下個stage的每個task創建的文件中，也就是在map端，對每一個key對應的value，執行reduceByKey算子函數。reduceByKey算子的執行過程如圖2-8所示：使用reduceByKey對性能的提升如下： 1.本地聚合

>>阅读原文<<