Spark 從 Kafka 讀數併發問題

時間 2019-12-05

標籤 spark kafka 讀數併發問題欄目 Spark 简体版

原文原文鏈接

常常使用 Apache Spark 從 Kafka 讀數的同窗確定會遇到這樣的問題：某些 Spark 分區已經處理完數據了，另外一部分分區還在處理數據，從而致使這個批次的做業總消耗時間變長；甚至致使 Spark 做業沒法及時消費 Kafka 中的數據。爲了簡便起見，本文討論的 Spark Direct 方式讀取 Kafka 中的數據，這種狀況下 Spark RDD 中分區和 Kafk

>>阅读原文<<