spark數據傾斜優化

一、儘量避免數據源的數據傾斜 比如數據源是kafka : 以Spark Stream通過DirectStream方式讀取Kafka數據爲例。由於Kafka的每一個Partition對應Spark的一個Task(Partition),所以Kafka內相關Topic的各Partition之間數據是否平衡,直接決定Spark處理該數據時是否會產生數據傾斜。 Kafka某一Topic內消息在不同Parti
相關文章
相關標籤/搜索