利用MapReduce進行二次排序--附例子

首先先來明確幾個概念:  1.分區-partition                 1)分區(partition):                              默認採起散列值進行分區,但此方法容易形成 「 數據傾斜 」 (大部分數據分到同一個reducer中,影響運行效率);                       因此須要自定義partition;            
相關文章
相關標籤/搜索