spark接收kafka的數據運行spark程序節點的task數據傾斜

時間 2019-12-07

標籤 spark 接收 kafka 數據運行程序節點 task 傾斜欄目 Spark 简体版

原文原文鏈接

這是由於你的spark的slave節點和kafka的broker節點重合時，kafka的topic分區不均衡，沒有分佈在不一樣節點上，spark拉取數據就近原則，在那裏拉取就在該節點計算，你能夠創建多個分區均衡在各個節點上。致使這個緣由是你的createDirectStream方法致使的，由於這個方法會本身映射你的kafka分區對應spark的分區，若是分區過少就會不均衡。

>>阅读原文<<