Spark性能調優-----算子調優(五)reduceByKey本地聚合

reduceByKey相較於普通的shuffle操作一個顯著的特點就是會進行map端的本地聚合,map端會先對本地的數據進行combine操作,然後將數據寫入給下個stage的每個task創建的文件中,也就是在map端,對每一個key對應的value,執行reduceByKey算子函數。reduceByKey算子的執行過程如圖2-8所示: 使用reduceByKey對性能的提升如下: 1.本地聚合
相關文章
相關標籤/搜索