MapReduce 之 Shuffle 的詳細流程

主要流程簡介: 先對數據進行切片,然後將數據傳遞給map,map的輸出是內存緩衝區(圓形緩衝區),內存緩衝 區默認大小是100M,當達到80%的時候將數據溢寫到本地,剩餘20%用於繼續獲取數據,在溢寫 到磁盤的時候會執行parti tion(分區) 和 sort (排序), 然後對文件進行合併操作,合併完成之後 reduceTask 會去啓動線程去mapTask拉取數據,然後進行文件合併,並進行排
相關文章
相關標籤/搜索