hadoop的shuffle過程

時間 2021-01-12

原文原文鏈接

hadoop的shuffle分爲map端的shuffle和reduce端的shuffle 1、map端的shuffle 如上圖所示： maptask先調用InputFormat中的getRecordReader方法，獲取RecordReader對象讀取文件。讀取進內存中，經過map方法中的context.write()寫出，由OutPutCollector收集到數據，並存放到環形緩衝區中

>>阅读原文<<