大數據面試題——Spark數據傾斜調優(五)

1、數據傾斜     數據傾斜指的是,並行處理的數據集中,某一部分(如Spark或Kafka的一個Partition)的數據顯著多於其它部分,從而使得該部分的處理速度成爲整個數據集處理的瓶頸。     數據傾斜倆大直接致命後果。         1、數據傾斜直接會導致一種情況:Out Of Memory。                2、運行速度慢 。     主要是發生在Shuffle階段。同
相關文章
相關標籤/搜索