Hadoop的shuffle與spark的區別

Hadoop的shuffle 1.maptask執行,outputcollect收集maptask的輸出數據,將數據寫入環形緩衝區中,記錄起始偏移量(split) 2.環形緩衝區默認大小爲100M,當數據達到80M時,記錄終止偏移量。 3.啓動spiller溢出器,將數據進行分區(默認分組根據key的hash值%reduce數量進行分區),分區內進行快速排序 4.分區,排序結束後,將數據刷寫到磁盤
相關文章
相關標籤/搜索