基於kafka和sparkstreaming的實時數據處理系統

目前處理的數據主要是文本數據,挖掘處理也是nlp和一些統計分析的處理,但是採用的流處理的系統框架應該是通用的。體統分爲實時部分和H/T+1部分,數據流架構圖如下: 實時部分開發時考慮的幾個主要問題 spark streaming和spark structured streaming的選擇 手動實現spark streaming和zk之間的offset同步和交互,保證exactly-once pro
相關文章
相關標籤/搜索