[大數據]連載No14之數據傾斜解決辦法之雙重聚合

背景:連個rdd進行join關聯時,一方rdd存在大量數據傾斜的key,如果通過reduceBykey,設置分區數爲10,由於相同key,佔用數據比例大,其餘9個task可能是至於空閒狀態,而另外一個task卻要處理大量數據,導致任務分配不均勻 解決辦法:雙重聚合 思路: 1、通過抽樣,排序,take前幾,找到導致數據傾斜的key 2、數據傾斜rdd,傾斜key加隨機前綴,比如隨機前綴爲5 3、另
相關文章
相關標籤/搜索