大數據常見問題之數據傾斜

什麼是數據傾斜     簡單的講,數據傾斜就是咱們在計算數據的時候,數據的分散度不夠,致使大量的數據集中到了一臺或者幾臺機器上計算,這些數據的計算速度遠遠低於平均計算速度,致使整個計算過程過慢。     相信大部分作數據的童鞋們都會遇到數據傾斜,數據傾斜會發生在數據開發的各個環節中,好比:web 用Hive算數據的時候reduce階段卡在99.99% 用SparkStreaming作實時算法時候,
相關文章
相關標籤/搜索