淺談Hadoop shuffle

時間 2021-01-20

原文原文鏈接

map task部分 1.map讀取split輸入數據。 2.map處理數據生成key-value。 3.key-value存入內存中的buffer。 4.buffer默認100M（io.sort.mb），當buffer中數據很多超過一個閥值（默認0.8,io.sort.spill.percent），後臺將有一個線程（spill）將buffer中數據寫入磁盤，存入指定地址（mapred.local

>>阅读原文<<