map-reducce運行全流程(Shuffle)

1,map task默認通過TestInputStream來讀取數據,一次讀取一行返回key-value值,通過context.write寫到OutPutCollector收集器中; 2,OutPutCollector將數據輸出到環形緩衝區中,環形緩衝區的默認大小是100M,當緩衝區用到80%的時候,(也就是80M)會將環形緩衝區的中的數據溢出(spill)到文件; 3,在環形緩存區中的數據會進行
相關文章
相關標籤/搜索