爲什麼 Spark Streaming + Kafka 無法保證 exactly once?

Streaming job 的調度與執行 爲什麼很難保證 exactly once 上面這張流程圖最主要想說明的就是,job 的提交執行是異步的,與 checkpoint 操作並不是原子操作。這樣的機制會引起數據重複消費問題: 爲了簡化問題容易理解,我們假設一個 batch 只生成一個 job,並且 spark.streaming.concurrentJobs 值爲1,該值代表 jobExecut
相關文章
相關標籤/搜索