mr spark job 數據傾斜問題

數據傾斜:
partitionbykey 
緣由:
例如單詞統計
hell0,1
hell0,1
hell0,1
hell0,1
world,1
...
在reducebykey的時候
根據key的hash值就行分區
相同key的就進入同一個分區
若是相同key不少的話,那麼這些相同值都會在同一個分區裏面hash

在reducebykey以前增長 一個 map 環節  該map 將 key加隨機數
在reducebykey以後再加 一個 map 環節 該map將上個map 對key加的隨機數 去除後 再聚合運算it

相關文章
相關標籤/搜索