MR過程+shuffle過程

時間 2021-01-12

原文原文鏈接

MapReduce的執行流程 Shuffle過程 Map的輸出結果首先被緩存到內存，當環狀緩衝區達到80% （默認大小爲100MB），就會啓動溢寫(Spill)操作，當前啓動溢寫操作時，首先把緩存中的數據進行分區(partition。默認對key hash後再除以reduce task數量取模。默認的取模方式只是爲了平均reduce的處理能力)，對每個分區的數據進行排序和合並。之後再寫入到磁盤中，