spark-24.spark調優_2_spark的數據傾斜

時間 2021-01-04

原文原文鏈接

1.什麼是數據傾斜數據傾斜指的是，並行處理的數據集中，某一部分（如Spark或Kafka的一個Partition）的數據顯著多於其它部分，從而使得該部分的處理速度成爲整個數據集處理的瓶頸。數據傾斜在spark中將導致兩個嚴重的後果：數據傾斜直接會導致一種情況：Out Of Memory。運行速度慢。一個經驗性的結論是：一般情況下，OOM的原因都是數據傾斜。 2.如何定位數據傾斜數據傾斜