spark數據傾斜優化

時間 2020-12-31

原文原文鏈接

一、儘量避免數據源的數據傾斜比如數據源是kafka ：以Spark Stream通過DirectStream方式讀取Kafka數據爲例。由於Kafka的每一個Partition對應Spark的一個Task（Partition），所以Kafka內相關Topic的各Partition之間數據是否平衡，直接決定Spark處理該數據時是否會產生數據傾斜。 Kafka某一Topic內消息在不同Parti

>>阅读原文<<