MapReduce的運行機制詳解

時間 2021-01-06

標籤 hadoop 欄目 Hadoop 简体版

原文原文鏈接

MapTask的運行機制：簡單概述：inputFile通過split被邏輯切分爲多個split文件，通過Record按行讀取內容給 map（用戶自己實現的）進行處理，數據被map處理結束之後交給OutputCollector收集器，對其結果key進行分區（默認使用hash分區），然後寫入buwer，每個map task都有一個內存緩衝區，存儲着map的輸出結果，當緩衝區快滿的時候需要將緩衝區

>>阅读原文<<