MR過程+shuffle過程

MapReduce的執行流程 Shuffle過程 Map的輸出結果首先被緩存到內存,當環狀緩衝區達到80% (默認大小爲100MB),就會啓動溢寫(Spill)操作,當前啓動溢寫操作時,首先把緩存中的數據進行分區(partition。默認對key hash後再除以reduce task數量取模。默認的取模方式只是爲了平均reduce的處理能力),對每個分區的數據進行排序和合並。之後再寫入到磁盤中,
相關文章
相關標籤/搜索