Hadoop-MapReduce Shuffle原理及調優

Shuffle過程圖: Map端: 1.Collect: Map端不是直接把數據寫入本地磁盤,而是先寫入一個環形緩衝區, 每個Map任務都有一個區,由io.sort.mb屬性控制緩衝區大小。 2.sort: 將數據按照分區分好,並且在分區內實現按Key升序排序 2*.Combiner: 若有Combiner,在上面分區內sort的輸出結果基礎上再執
相關文章
相關標籤/搜索