大數據之Hadoop_MapReduce處理數據內部基本流程

MR處理數據內部基本流程 一.任務切分 1.根據文件的大小,及文件的個數進行任務切分,如:有一個文件200M,還有另一個文件100M,就會先將200M的文件按數據切塊(hdfs默認128M,本地默認32M)的原理分成兩塊,然後這兩個文件就會被劃分成三個任務,這就叫數據切塊,和任務切分 2.任務切分後,就會去找LineRecordReader讀取數據, 在LineRecordReader就會使用re
相關文章
相關標籤/搜索