MapReduce的shuffle過程理解

首先了解什麼是shuffle過程 簡單的來說就是map的輸出 作爲reduce的輸入的過程稱爲shuffle流程 1、根據文件的切片個數啓動相應的maptask任務 2、maptask任務 逐行讀取 對應文件中的內容 3、將讀取到的內容,標記好分區號後 輸入到環形緩衝區中(環形緩衝區大小默認100m) 4、當環形緩衝區中的內容達到閾值(80%),將數據溢寫到磁盤中 5、溢寫之前 將數據進行排序,按
相關文章
相關標籤/搜索