Spark兩個rdd join發生數據傾斜的典型情況

有兩個RDD,分別是RDDA[Ka, Va] 和 RDDB[Kb, Vb],數據量都比較大,在做join操作的時候,可以看出,shuffle read 有嚴重的數據傾斜現象,導致拖慢了整個 job 的速度: 其實從上述問題中,可以看出來,index=0 的 task 必然有問題,如果不熟悉自己的數據分佈的話,很容易誤以爲自己的數據分佈是均勻的,所以建議打印出來前十個 key 出來看看。 否則就可能
相關文章
相關標籤/搜索