MapReduce：分區與分組

時間 2021-01-12

原文原文鏈接

分區、分組分區：在Mapper的輸出時進行，默認會採用HashPartitioner，會根據key值和reduce數進行分組；在寫入MapOutputBuffer的緩衝區之前每個kv對就已經獲取了對應的分區索引，在溢寫時默認會根據分區索引從小到大，key值從小到大進行排序；並且rudecer數決定了分區數量，因爲一個reducer只能處理一個分區。自定義分組器通過Job.setPartition

>>阅读原文<<