MapReduce二次排序(secondary sort)實戰

時間 2019-12-04

標籤 mapreduce 二次排序 secondary sort 實戰欄目 Hadoop 简体版

原文原文鏈接

接觸過mapreduce的同窗都知道，爲了將key值相同的record放在一塊兒，分配給指定reducer，shuffle階段會按照key值排序。然而在某些狀況下，咱們須要同時對value排序，A同窗立馬提出了以下解決方案：reduce的時候，將同一個key的全部value都存在一個list中，最後再進行排序，這個方案在數據量小時沒有問題，但是reducer的內存是有限的，當數據規模很大時，某個

>>阅读原文<<