Hadoop Streaming 中的數據傾斜坑

時間 2019-12-05

原文原文鏈接

Hadoop Streaming 中的數據傾斜坑 1. 背景最近用 hadoop streaming 跑一個數據集，不算大，每小時150G左右，可是每次耗時特別長，並且基本是卡在了reduce 98%的地方。 python 看了下輸出，基本上是數據集中到一兩個reducer上了，所以每次吐出最後幾個reducer耗時特別長。 web 處理的數據在mapper輸出相似於下面這種形式

>>阅读原文<<