Hadoop入門之Mapreduce流程Shuffle過程

昨天大概講述了下MR的大概流程(分片,Mapper,Reducer),其中mapper和reducer中間的銜接過程shuffle沒有談到,這次主要總結下這個過程. 1.maptask通過inputformat(可以自定義實現類)讀取要處理的文件交給你寫的mapper過程處理後到outputcollector進行一些列的操作後寫入到HDFS中(操作如下) 2.將要寫出的數據先寫入到內存緩存區,通過
相關文章
相關標籤/搜索