MAP/REDUCE-shuffle流程簡單概述

我簡單地將shuffle流程分成以下兩部分: map task 程序會根據InputFormat將輸入文件分割成splits,每個split會作爲一個map task的輸入,每個map task會有一個內存緩衝區,輸入數據經過map階段處理後的中間結果會寫入內存緩衝區(環形緩衝區,這個暫時就不深入了),並且決定數據寫入到哪個partitioner,當寫入的數據到達內存緩衝區的的閥值(默認是0.8)
相關文章
相關標籤/搜索