Hadoop(八)——MapReduce下

1.數據傾斜: 原因: 因爲又分區的情況,導致Reduce階段的ReduceTask處理的數據量不一樣,可能有的多有的少,這就產生了數據傾斜的問題。 另外還有可能發生Map階段的數據傾斜,但是需要滿足3個條件:多輸入源,文件不可切分,文件大小不均等。 reduce階段的數據傾斜如何優化? 二階段聚合: 第一階段:把數據打散,進行部分聚合 第二階段:根據分區條件來進行聚合 沒有使用二階段聚合: 每一
相關文章
相關標籤/搜索