spark 大型項目實戰(五十四):數據傾斜解決方案之提高shuffle操作reduce並行度

時間 2021-01-04

原文原文鏈接

spark.default.parallelism，100 提升shuffle reduce端並行度，怎麼來操作？很簡單，主要給我們所有的shuffle算子，比如groupByKey、countByKey、reduceByKey。在調用的時候，傳入進去一個參數。一個數字。那個數字，就代表了那個shuffle操作的reduce端的並行度。那麼在進行shuffle操作的時候，就會對應着創建指定數量的

>>阅读原文<<