Spark 從 Kafka 讀數併發問題

時間 2020-12-20

原文原文鏈接

經常使用 Apache Spark從Kafka讀數的同學肯定會遇到這樣的問題：某些Spark分區已經處理完數據了，另一部分分區還在處理數據，從而導致這個批次的作業總消耗時間變長；甚至導致 Spark 作業無法及時消費Kafka中的數據。爲了簡便起見，本文討論的 Spark Direct 方式讀取Kafka中的數據，這種情況下 Spark RDD 中分區和 Kafka 分區是一一對應的，更多的細節請

>>阅读原文<<