MR數據傾斜解決方案

1.數據傾斜 由於mapreduce程序是按照key的hash值進行分區的 , 如果某些單詞特別多 , 特別多的單詞就會被分到同一個reduce去處理 , 有些reducere任務處理的數據量小 有些reduce任務處理的數據量非常大 只有所有的reduce任務完成以後job纔算完成 , 造成job的工作時間變長 [任務分配不均勻] 1 將key打散 在key上添加隨機數 根據 reducetas
相關文章
相關標籤/搜索