hadoop MR的過程

時間 2020-12-29

原文原文鏈接

map階段 1.由InputSplitFormat對輸入數據進行邏輯分片（FileInputFormat.class中的getSplits()方法），默認的分片大小是不大於blocksize的大小，不小於配置文件中mapred.min.split.size中定義的大小，每一個分片分配一個map任務。數據按行被解析成key/value鍵值對，key爲每行首字母在文件中的偏移量。 2.每一個map任務