Hadoop MapReduce中Combiner作用

時間 2021-01-12

原文原文鏈接

問題提出：衆所周知，Hadoop框架使用Mapper將數據處理成一個<key,value>鍵值對，再網絡節點間對其進行整理(shuffle)，然後使用Reducer處理數據並進行最終輸出。在上述過程中，我們看到至少兩個性能瓶頸：（引用） 1. 如果我們有10億個數據，Mapper會生成10億個鍵值對在網絡間進行傳輸，但如果我們只是對數據求最大值，那麼很明顯的Mapper只需要輸出它所

>>阅读原文<<