spark調優之數據傾斜以及解決

時間 2021-01-04

原文原文鏈接

（1）數據傾斜的介紹 1）數據傾斜的原因： Shuffle數據之後導致數據分佈不均勻，但是所有節點的機器的性能都是一樣的，程序也是一樣的，就是數據量不一致，所以決定了task的執行時長就被數據量決定了。 2）定位數據傾斜的代碼：數據傾斜發生在shuffle過程，有shuffle過程的算子有：distinct、groupByKey、reduceByKey、aggregateByKey、join、c

>>阅读原文<<