spark數據傾斜解決方案（三）提升shuffle操做reduce並行度

時間 2019-12-11

標籤 spark 數據傾斜解決方案提升 shuffle reduce 並行欄目 Spark 简体版

原文原文鏈接

數據傾斜解決方案提升shuffle操做reduce並行度當咱們設置spark.default.parallelism，100 咱們假設Map端有100個task，而後reduce端有100個task 而後此時發生數據傾斜了，一個task有10萬數據，其餘task都只有10條數據假設第一個方案和第二個方案都不適合作！第三個方案，提升shuffle操做的reduce並行度將reduce t

>>阅读原文<<