MapReduce:詳解Shuffle過程

Shuffle過程,也稱Copy階段。reduce task從各個map task上遠程拷貝一片數據,並針對某一片數據,如果其大小超過一定的閥值,則寫到磁盤上,否則直接放到內存中。 官方的Shuffle過程如上圖所示,不過細節有錯亂,官方圖並沒有說明partition、sort和combiner具體作用於哪個階段。 注意:Shuffle過程是貫穿於map和reduce兩個過程的! Hadoop的集
相關文章
相關標籤/搜索