淺談Hadoop shuffle

map task部分 1.map讀取split輸入數據。 2.map處理數據生成key-value。 3.key-value存入內存中的buffer。 4.buffer默認100M(io.sort.mb),當buffer中數據很多超過一個閥值(默認0.8,io.sort.spill.percent),後臺將有一個線程(spill)將buffer中數據寫入磁盤,存入指定地址(mapred.local
相關文章
相關標籤/搜索