MR -- Shuffle機制

1、流程詳解 Map 方法之後,Reduce 方法之前的數據處理過程被稱爲 Shuffle,具體流程爲: (1) MapTask 收集 map() 方法輸出的 kv 對,放到內存緩衝區中。 (2) 從內存緩衝區不斷溢出本地磁盤文件,可能會溢出多個文件。 (3) 多個溢出文件會被合併成大的溢出文件。 (4) 在溢出過程及合併的過程中,都要調用 Partitioner 進行分區和針對 key 進行排序
相關文章
相關標籤/搜索