Hadoop Shuffle

一、大體流程 Shuffle描述的是數據從Map端到Reduce端的過程,大致分爲排序(sort)、溢寫(spill)、合併(merge)、拉取拷貝(Copy)、合併排序(merge sort)這幾個過程。 二、Map端 1、sort Map端的輸出數據,先寫環形緩存區kvbuffer,當環形緩衝區到達一個閥值(可以通過配置文件設置,默認80),便要開始溢寫,但溢寫之前會有一個sort操作,這個s
相關文章
相關標籤/搜索