MapReduce數據發生傾斜(二)

數據分佈 正常的數據分佈理論上都是傾斜的,就是我們所說的20-80原理:80%的財富集中在20%的人手中, 80%的用戶只使用20%的功能 , 20%的用戶貢獻了80%的訪問量。 產生原因 Mapreduce程序在運行的時候,運行了大部分,但是還有部分reduce還在運行,甚至長時間運行,最終導致整個程序運行時間很長才結束。 造成這種現象的主要原因 reduce程序處理的key的條數比其他key的
相關文章
相關標籤/搜索