大數據常見問題之數據傾斜

什麼是數據傾斜      簡單的講,數據傾斜就是我們在計算數據的時候,數據的分散度不夠,導致大量的數據集中到了一臺或者幾臺機器上計算,這些數據的計算速度遠遠低於平均計算速度,導致整個計算過程過慢。      相信大部分做數據的童鞋們都會遇到數據傾斜,數據傾斜會發生在數據開發的各個環節中,比如: 用 Hive 算數據的時候 reduce 階段卡在 99.99% 用 SparkStreaming 做實
相關文章
相關標籤/搜索