spark 大型項目實戰(五十五):數據傾斜解決方案之使用隨機key實現雙重聚合

時間 2021-01-04

原文原文鏈接

使用隨機key實現雙重聚合 1、原理 2、使用場景（1）groupByKey （2）reduceByKey 比較適合使用這種方式；join，咱們通常不會這樣來做，後面會講三種，針對不同的join造成的數據傾斜的問題的解決方案。第一輪聚合的時候，對key進行打散，將原先一樣的key，變成不一樣的key，相當於是將每個key分爲多組；先針對多個組，進行key的局部聚合；接着，再去除掉每個key的

>>阅读原文<<