大數據面試題——Spark數據傾斜調優（五）

時間 2021-02-03

標籤大數據面試題總結 1024程序員節 Spark面試題總結數據傾斜總結大數據欄目快樂工作简体版

原文原文鏈接

1、數據傾斜數據傾斜指的是，並行處理的數據集中，某一部分（如Spark或Kafka的一個Partition）的數據顯著多於其它部分，從而使得該部分的處理速度成爲整個數據集處理的瓶頸。數據傾斜倆大直接致命後果。 1、數據傾斜直接會導致一種情況：Out Of Memory。 2、運行速度慢。主要是發生在Shuffle階段。同

>>阅读原文<<