MapReduce的MapTask執行機制

時間 2021-01-12

原文原文鏈接

Map階段流程:input File通過split被邏輯切分爲多個split文件，通過Record按行讀取內容給map（用戶自己實現的）進行處理，數據被map處理結束之後交給OutputCollector收集器，對其結果key進行分區（默認使用hash分區），然後寫入buffer，每個map task都有一個內存緩衝區，存儲着map的輸出結果，當緩衝區快滿的時候需要將緩衝區的數據以一個臨時文件的方

>>阅读原文<<