Hadoop中的MapReduce的shuffle過程及調優

時間 2021-07-11

標籤 hadoop學習筆記 Hadoop MapReduce shuffle 機制調優欄目 Hadoop 简体版

原文原文鏈接

概述 Shuffle，即混洗、洗牌，顧名思義就是對數據打亂重新分配。Shuffle發生在Map輸出至Reduce的輸入過程之間。主要分爲兩部分 Map任務輸出的數據進行分組、合併、排序，並寫入本地磁盤 Reduce任務拉取數據進行合併、排序 Shuffle過程 Map端 Map端輸出時，會先將數據寫入內存的環形緩衝區，默認大小100M，可通過參數設置當緩衝區的內容大小達到閾值（默認0.8

>>阅读原文<<