MapReduce的shuffle工作原理講解

mapReduce首先是由inputFormat把數據從hdfs裏面取出來對數據進行切片操作,只是邏輯上的切分,然後由record reader(記錄閱讀器)根據邏輯分片分好的位置以及長度信息去底層具體的hdfs各個塊把相關的分片給讀出來。 讀出來以keyValue的形式輸出給map任務。具體的map任務是由程序員自己去寫業務邏輯。map任務結束後 以鍵值對的形式輸出給reduce,map任務結束
相關文章
相關標籤/搜索