Spark項目實戰-數據傾斜解決方案之原理以及現象分析

時間 2021-01-16

原文原文鏈接

一、數據傾斜的原理在執行shuffle操作的時候，大家都知道是按照key來進行values的數據的輸出、拉取和聚合的。同一個key的values，一定是分配到一個reduce task進行處理的。假設多個key對應的values，總共是90萬。但是問題是可能某個key對應了88萬數據，key-88萬values，分配到一個task上去面去執行。另外兩個task，可能各分配到了1萬數據，可能是數百

>>阅读原文<<