流式計算概述
流式計算的系統設計和實現(內存計算)
增量計算、流式計算、批量計算的區別?
利用分佈式的思想和方法,對海量「流」式數據進行實時處理,源自業務對海量數據,在「時效」的價值上的挖掘訴求html
- 實時計算(ad-hoc computing,計算不可枚舉,計算在query時發生)
數據的實時計算,支持在大數據集的在線複雜實時計算(實時數據的實時計算)安全
優點:
- 中間計算結果實時產出
- 時效性強
- 平攤計算
- 中間計算狀態不膨脹
- 有狀態的failover(容錯效率高)
- 批次運算(將整個數據進行recomputing,克服數據傾斜能力,下降數據傾斜對整個計算性能的退化的影響)
增量計算與流式計算
應用場景
- 日誌採集與在線分析
- 大數據的預處理
- 風險監測與告警(對交易業務的虛假交易進行實時監測與分析)
- 網站與移動應用統計分析(雙11運營、淘寶量子統計等各種統計業務分析中,提供實時的業務統計分析報表)
- 網絡安全監測(實時監控、實時分析、實時監測、實時對抗、在線服務計量與計費管理系統)
- 工業4.0(實時計算、流式計算)
- 物聯網(實時計算、流式計算)
特色
1.數據特色 --> 流
由業務產生的有向無界的數據流網絡
- 不可控性
到達時機:不一樣的數據通路,到達的時機徹底不可控
UPDATE語句:對系統後續的設計、容錯及語義方面產生極大的影響
相關數據順序
數據質量
數據規模
離線計算、批量計算:數據倉庫的質量體系構築的比較完善架構
- 體系缺失
數據源的治理
數據質量的治理分佈式
- 時效性要求(對整個計算處理的數據力度,有更高的要求)
容錯方案
體系結構
結果輸出性能
2.處理粒度最小
對整個系統架構具備決定性影響大數據
3.處理算子對狀態的影響不一樣
- 無狀態計算
- 有狀態計算
- 數據進入順序有要求
4.輸出要求
- 一致性
- 連貫性
5.計算特色
- 時效性:高
- 質量:準
- 容錯:穩
- 多樣性:多(精確、只多很多、丟sla)