解決reduce拉取map數據的時候key設計的不均衡問題

時間 2021-01-09

原文原文鏈接

什麼是數據傾斜及數據傾斜是怎麼產生？簡單來說數據傾斜就是數據的key 的分化嚴重不均，造成一部分數據很多，大部分數據很少的局面。舉個 word count 的入門例子，它的map 階段就是形成（「aaa」,1）的形式，然後在reduce 階段進行 value 相加，得出「aaa」出現的次數。若進行 word count 的文本有100G，其中 80G 全部是「aaa」剩下 20G 是

>>阅读原文<<