[大數據]連載No14之數據傾斜解決辦法之雙重聚合

時間 2020-12-25

原文原文鏈接

背景：連個rdd進行join關聯時，一方rdd存在大量數據傾斜的key,如果通過reduceBykey，設置分區數爲10，由於相同key,佔用數據比例大，其餘9個task可能是至於空閒狀態，而另外一個task卻要處理大量數據，導致任務分配不均勻解決辦法：雙重聚合思路： 1、通過抽樣，排序，take前幾，找到導致數據傾斜的key 2、數據傾斜rdd,傾斜key加隨機前綴，比如隨機前綴爲5 3、另

>>阅读原文<<