Hadoop的shuffle與spark的區別

時間 2021-01-05

標籤 hadoop spark 欄目 Hadoop 简体版

原文原文鏈接

Hadoop的shuffle 1.maptask執行，outputcollect收集maptask的輸出數據，將數據寫入環形緩衝區中，記錄起始偏移量(split) 2.環形緩衝區默認大小爲100M，當數據達到80M時，記錄終止偏移量。 3.啓動spiller溢出器，將數據進行分區（默認分組根據key的hash值%reduce數量進行分區），分區內進行快速排序 4.分區，排序結束後，將數據刷寫到磁盤

>>阅读原文<<