MapReduce 超詳細執行流程解讀

時間 2019-12-06

原文原文鏈接

一、一個大文件須要處理，它在在 HDFS 上是以 block 塊形式存放，每一個 block 默認爲 128M 存 3 份，運行時每一個 map 任務會處理一個 split，若是 block 大和 split 相同（默認狀況下確實相同），有多少個 block 就有多少個 map 任務，因此對整個文件處理時會有不少 map 任務進行並行計算二、每一個 map 任務處理完輸入的 spli

>>阅读原文<<