MapReduce Shuffle流程

Map端Shuffle過程 每個map task都有一個內存緩衝區,存儲着map的輸出結果,當緩衝區快滿的時候需要將緩衝區的數據以一個臨時文件的方式存放到磁盤,當整個map task結束後再對磁盤中這個map task產生的所有臨時文件做合併,生成最終的正式輸出文件,然後等待reduce task來拉數據。 執行步驟(4個): 在map task執行時,它的輸入數據來源於HDFS的block,當然
相關文章
相關標籤/搜索