Hadoop Streaming 中的數據傾斜坑

Hadoop Streaming 中的數據傾斜坑 1. 背景 最近用 hadoop streaming 跑一個數據集,不算大,每小時150G左右,可是每次耗時特別長,並且基本是卡在了reduce 98%的地方。     python 看了下輸出,基本上是數據集中到一兩個reducer上了,所以每次吐出最後幾個reducer耗時特別長。     web 處理的數據在mapper輸出相似於下面這種形式
相關文章
相關標籤/搜索