reduceByKey和groupByKey性能分析比較

reduceByKey相較與普通的shuffle操作一個顯著的特點就是會進行map端的本地聚合,map端會先在本地的數據進行Combiner操作,然後將數據寫入給下一個stage的每個task創建的文件中,也就是在map端,對每一個key對應的value,執行reduceByKey算子函數,reduceByKey算子的執行過程如圖所示   使用reduceByKey對性能的提升如下: 本地聚合後,
相關文章
相關標籤/搜索