------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------node
某一個具體的map task進程,輸出數據是如何緩存、中間是如何排序、如何分組的,而後轉發給reduce,這個過程就叫作shullfe過程。shuffle是分佈到整個集羣協做運行的緩存
partitions實現分組spa
buffer緩存blog
- inputSplit切片邏輯產生一個map 進程
- map結果輸出k-v形式
- k-v放到本身機器的內存中buffer,buffer緩衝區大小由配置文件指定,默認100M,
- buffer會把溢出數據放到磁盤中,分組,排序,合併(合併時候同一組還須要從新排序,由於每一個分組中的數據排序之間存在135,268)
- 給到reduce後,依然須要分組排序合併