Hadoop7days-4 shuffle

Shuffle是MapReduce的心臟。 如上圖看到的,數據的流程是Map--->shuffle--->Reduce.但是,shuffle的具體過程是怎樣的呢? MAP端:     Map的輸出並不是簡單的寫到磁盤,等待Reduce的獲取。每一個map都有一個環形內存緩衝區,默認大小爲100M,當其中的緩衝內容達到閾值(80%),後臺線程便把其中的內容溢寫到磁盤(在寫磁盤過程中,map輸出繼續寫
相關文章
相關標籤/搜索