大數據groupby太慢該如何優化

時間 2021-01-11

標籤 spark HIve 欄目 Spark 简体版

原文原文鏈接

算子調優五：reduceByKey本地聚合參考：https://www.cnblogs.com/dflmg/p/10430181.html reduceByKey相較於普通的shuffle操作一個顯著的特點就是會進行map端的本地聚合，map端會先對本地的數據進行combine操作，然後將數據寫入給下個stage的每個task創建的文件中，也就是在map端，對每一個key對應的value，執行r

>>阅读原文<<