spark數據傾斜

1、什麼是數據傾斜? 數據傾斜就是我們在計算數據的時候,數據的分散度不夠,導致大量的數據集中到了一臺或者幾臺機器上計算,這些數據的計算速度遠遠低於平均計算速度,導致整個計算過程過慢。 數據傾斜,會導致: OOM(單或少數的節點); 運行速度慢,拖慢整個Job執行時間(出現數據傾斜的節點會成爲整個Job的瓶頸)。 2、數據傾斜的原理 數據傾斜產生的原因 Spark在做數據運算的時候會涉及countd
相關文章
相關標籤/搜索