MapReduce之Shuffle詳解

Shuffle機制 概念:主要是Map階段之後,Reduce階段之前對數據的分區、排序、合併、分組過程 分區(Partition) 概述:爲了將不同類型的內容輸出到不同文件中,進行分類存儲。 默認分區: HashPartitioner根據key的hashCode對ReduceTasks個數取模得到的進行分區,用戶不能進行設置。 底層原理 : (key.hashCode() & Integer.MA
相關文章
相關標籤/搜索