Hadoop入門之Mapreduce流程Shuffle過程

時間 2021-08-15

原文原文鏈接

昨天大概講述了下MR的大概流程(分片,Mapper,Reducer),其中mapper和reducer中間的銜接過程shuffle沒有談到,這次主要總結下這個過程. 1.maptask通過inputformat(可以自定義實現類)讀取要處理的文件交給你寫的mapper過程處理後到outputcollector進行一些列的操作後寫入到HDFS中(操作如下) 2.將要寫出的數據先寫入到內存緩存區,通過

>>阅读原文<<