Hadoop MapReduce中Combiner作用

問題提出: 衆所周知,Hadoop框架使用Mapper將數據處理成一個<key,value>鍵值對,再網絡節點間對其進行整理(shuffle),然後使用Reducer處理數據並進行最終輸出。     在上述過程中,我們看到至少兩個性能瓶頸:(引用) 1.  如果我們有10億個數據,Mapper會生成10億個鍵值對在網絡間進行傳輸,但如果我們只是對數據求最大值,那麼很明顯的Mapper只需要輸出它所
相關文章
相關標籤/搜索