MapReduce之Job提交流程

時間 2020-07-18

原文原文鏈接

@app

1. 準備階段

運行Job.waitForCompletion()，先使用JobSubmitter提交Job，在提交以前，會在Job的做業目錄中生成如下文件：
job.split：當前Job的切片信息，有幾個切片對象
job.splitmetainfo：切片對象的屬性信息
job.xml：job全部的屬性配置線程

2. 提交階段

本地模式：
LocalJobRunner進行提交，若是是HDFS，使用了yarn，則是YARNJobRunner
建立一個LocalJobRunner.Job()
job啓動：Job.start()code

Map階段xml

採用線程池提交多個MapTaskRunable線程
每一個MapTaskRunable線程上，實例化一個MapTask對象
每一個MapTask對象，最終實例化一個Mapper
Mapper.run()
線程運行結束，會在線程的做業目錄中生成 file.out文件，保存MapTask輸出的全部的key-value

階段定義
若是有ReduceTask，MapTask運行期間，分爲 map(67%)---sort(33%) 兩部分
若是沒有ReduceTask，MapTask運行期間，只有map(100%)
map: 使用RecordReader將切片中的數據讀入到Mapper.map()，直至寫出：context.write(key,value)對象

Reduce階段blog