Spark（九）————數據傾斜解決

時間 2019-12-05

標籤 spark 數據傾斜解決欄目 Spark 简体版

原文原文鏈接

一、數據傾斜原理及現象分析 web 在執行shuffle操做的時候，你們都知道，咱們以前講解過shuffle的原理。是按照key，來進行values的數據的輸出、拉取和聚合的。sql 同一個key的values，必定是分配到一個reduce task進行處理的。緩存多個key對應的values，總共是90萬。可是問題是，可能某個key對應了88萬數據，key-88萬values，分配到一個tas

>>阅读原文<<