7.Spark 從 Kafka 讀數併發問題

經常使用 Apache Spark 從 Kafka 讀數的同學肯定會遇到這樣的問題:某些 Spark 分區已經處理完數據了,另一部分分區還在處理數據,從而導致這個批次的作業總消耗時間變長;甚至導致 Spark 作業無法及時消費 Kafka 中的數據。爲了簡便起見,本文討論的 Spark Direct 方式讀取 Kafka 中的數據,這種情況下 Spark RDD 中分區和 Kafka 分區是一一對
相關文章
相關標籤/搜索