MapReduce二次排序(secondary sort)實戰

接觸過mapreduce的同窗都知道,爲了將key值相同的record放在一塊兒,分配給指定reducer,shuffle階段會按照key值排序。 然而在某些狀況下,咱們須要同時對value排序,A同窗立馬提出了以下解決方案:reduce的時候,將同一個key的全部value都存在一個list中,最後再進行排序,這個方案在數據量小時沒有問題,但是reducer的內存是有限的,當數據規模很大時,某個
相關文章
相關標籤/搜索