hadoop之shuffle

時間 2021-01-13

原文原文鏈接

map端： 1、讀取數據源 2、將數據切片（每片128M），切分成一個個的split 3、啓動mapTask，mapTask個數和split個數一樣，開始執行任務 4、mapTask將數據讀入內存，存在一個內存環形緩衝區（mapreduce.task.io.sort.mb=100，可自定義）；當該區域中的容量到達80%（默認mapreduce.map.sort.sp

>>阅读原文<<