數據本地性,引起task分配不均executor執行慢

如下問題討論: 哥們給出的結論是repartition導致的數據傾斜。那麼接下來,我們就仔細分析一下不是數據傾斜原因。 那哥們數是repartition導致的數據傾斜原因,是由於前三行數據輸入和輸出都是好幾百兆,而後面的都是隻有幾個MB的輸入,0B輸出,所以下結論是數據傾斜。 數據傾斜往往指的是同一個stage內部:有的task數據量大,有的task數據量小,task間數據量大小差距比較大,而這個
相關文章
相關標籤/搜索