MapReduce工作流程詳解

時間 2020-12-23

原文原文鏈接

先從HDFS文件系統中讀取文件進行合併進行邏輯切分 Split 對一行數據進行切分RecordRead,以key爲行首字母的偏移量value爲對應的一行數據傳給maptask MapTask對數據進行處理後傳給shuffle的分區partition partition對數據進行分區處理將數據傳給shuffle的sort排序 sort排序後的結果傳送給shuffle的combiner(局部

>>阅读原文<<