Hadoop之MapReduce自定義二次排序

時間 2021-01-04

原文原文鏈接

一、概述 MapReduce框架對處理結果的輸出會根據key值進行默認的排序，這個默認排序可以滿足一部分需求，但是也是十分有限的。在我們實際的需求當中，往往有要對reduce輸出結果進行二次排序的需求。對於二次排序的實現，網絡上已經有很多人分享過了，但是對二次排序的實現的原理以及整個MapReduce框架的處理流程的分析還是有非常大的出入，而且部分分析是沒有經過驗證的。本文將通過一個實際的MapR