數據傾斜解決方案之提高shuffle操作reduce並行度

第一個和第二個方案,都不適合做。 第三個方案,提高shuffle操作的reduce並行度 將reduce task的數量,變多,就可以讓每個reduce task分配到更少的數據量,這樣的話,也許就可以緩解,或者甚至是基本解決掉數據傾斜的問題。   提升shuffle reduce端並行度,怎麼來操作? 很簡單,主要給我們所有的shuffle算子,比如groupByKey、countByKey、r
相關文章
相關標籤/搜索