Hadoop-MapReduce Shuffle原理及調優

時間 2021-01-18

原文原文鏈接

Shuffle過程圖： Map端： 1.Collect： Map端不是直接把數據寫入本地磁盤，而是先寫入一個環形緩衝區，每個Map任務都有一個區，由io.sort.mb屬性控制緩衝區大小。 2.sort：將數據按照分區分好，並且在分區內實現按Key升序排序 2*.Combiner：若有Combiner，在上面分區內sort的輸出結果基礎上再執

>>阅读原文<<