Shuffle機制詳解

Shuffle機制 Map方法之後,Reduce方法之前的數據處理過程稱之爲Shuffle。如圖: 具體Shuffle過程詳解,如下: 1)MapTask收集我們的map()方法輸出的kv對,放到內存緩衝區中 2)從內存緩衝區不斷溢出本地磁盤文件,可能會溢出多個文件 3)多個溢出文件會被合併成大的溢出文件 4)在溢出過程及合併的過程中,都要調用Partitioner進行分區和針對key進行排序 5
相關文章
相關標籤/搜索