基於kafka和sparkstreaming的實時數據處理系統

時間 2021-08-15

原文原文鏈接

目前處理的數據主要是文本數據，挖掘處理也是nlp和一些統計分析的處理，但是採用的流處理的系統框架應該是通用的。體統分爲實時部分和H/T+1部分，數據流架構圖如下：實時部分開發時考慮的幾個主要問題 spark streaming和spark structured streaming的選擇手動實現spark streaming和zk之間的offset同步和交互，保證exactly-once pro

>>阅读原文<<