MapReduce的運行機制詳解

MapTask的運行機制: 簡單概述:inputFile通過split被邏輯切分爲多個split文件,通過Record按行讀取內容給 map(用戶自己實現的)進行處理,數據被map處理結束之後交給OutputCollector收集器,對 其結果key進行分區(默認使用hash分區),然後寫入buwer,每個map task都有一個內存緩衝 區,存儲着map的輸出結果,當緩衝區快滿的時候需要將緩衝區
相關文章
相關標籤/搜索