實時流計算、Spark Streaming、Kafka、Redis、Exactly-once、實時去重

在實時流式計算中,最重要的是在任何情況下,消息不重複、不丟失,即Exactly-once。本文以Kafka–>Spark Streaming–>Redis爲例,一方面說明一下如何做到Exactly-once,另一方面說明一下我是如何計算實時去重指標的。 1. 關於數據源 數據源是文本格式的日誌,由Nginx產生,存放於日誌服務器上。在日誌服務器上部署Flume Agent,使用TAILDIR So
相關文章
相關標籤/搜索