spark-24.spark調優_2_spark的數據傾斜

1.什麼是數據傾斜 數據傾斜指的是,並行處理的數據集中,某一部分(如Spark或Kafka的一個Partition)的數據顯著多於其它部分,從而使得該部分的處理速度成爲整個數據集處理的瓶頸。 數據傾斜在spark中將導致兩個嚴重的後果: 數據傾斜直接會導致一種情況:Out Of Memory。 運行速度慢。 一個經驗性的結論是:一般情況下,OOM的原因都是數據傾斜。 2.如何定位數據傾斜 數據傾斜
相關文章
相關標籤/搜索