MapReduce和Spark相關原理_Shuffle

時間 2020-12-27

原文原文鏈接

--綠字猜測--紅字疑問從Map輸出到Reduce輸入的整個過程可以廣義地稱爲Shuffle Mapreduce引擎 map輸出鍵值對數據不斷寫入環形緩存區(內存)，到達閥值後spill溢寫(這個過程中是按照partition和key值升序排序寫入，如果有調用combiner則在排序後再調用combiner)，一次溢寫會在磁盤上產生一個小文件，全部溢寫完成得到多個小文件，對這些小文件進行me

>>阅读原文<<