MapReduce Shuffle流程

時間 2021-01-07

原文原文鏈接

Map端Shuffle過程每個map task都有一個內存緩衝區，存儲着map的輸出結果，當緩衝區快滿的時候需要將緩衝區的數據以一個臨時文件的方式存放到磁盤，當整個map task結束後再對磁盤中這個map task產生的所有臨時文件做合併，生成最終的正式輸出文件，然後等待reduce task來拉數據。執行步驟（4個）：在map task執行時，它的輸入數據來源於HDFS的block，當然

>>阅读原文<<