流式計算概述

流式計算概述

流式計算的系統設計和實現(內存計算)

增量計算、流式計算、批量計算的區別?

  • 流式計算(流式計算是一種特殊的增量計算)

利用分佈式的思想和方法,對海量「流」式數據進行實時處理,源自業務對海量數據,在「時效」的價值上的挖掘訴求html

  • 實時計算(ad-hoc computing,計算不可枚舉,計算在query時發生)

數據的實時計算,支持在大數據集的在線複雜實時計算(實時數據的實時計算)安全

  • 增量計算
優點:
  1. 中間計算結果實時產出
  2. 時效性強
  3. 平攤計算
  4. 中間計算狀態不膨脹
  5. 有狀態的failover(容錯效率高)
  6. 批次運算(將整個數據進行recomputing,克服數據傾斜能力,下降數據傾斜對整個計算性能的退化的影響)

增量計算與流式計算

應用場景
  1. 日誌採集與在線分析
  2. 大數據的預處理
  3. 風險監測與告警(對交易業務的虛假交易進行實時監測與分析)
  4. 網站與移動應用統計分析(雙11運營、淘寶量子統計等各種統計業務分析中,提供實時的業務統計分析報表)
  5. 網絡安全監測(實時監控、實時分析、實時監測、實時對抗、在線服務計量與計費管理系統)
  6. 工業4.0(實時計算、流式計算)
  7. 物聯網(實時計算、流式計算)
特色
1.數據特色 --> 流

由業務產生的有向無界的數據流網絡

  1. 不可控性

到達時機:不一樣的數據通路,到達的時機徹底不可控
UPDATE語句:對系統後續的設計、容錯及語義方面產生極大的影響
相關數據順序
數據質量
數據規模
離線計算、批量計算:數據倉庫的質量體系構築的比較完善架構

  1. 體系缺失

數據源的治理
數據質量的治理分佈式

  1. 時效性要求(對整個計算處理的數據力度,有更高的要求)

容錯方案
體系結構
結果輸出性能

2.處理粒度最小

對整個系統架構具備決定性影響大數據

3.處理算子對狀態的影響不一樣
  1. 無狀態計算
  2. 有狀態計算
  3. 數據進入順序有要求
4.輸出要求
  1. 一致性
  2. 連貫性
5.計算特色
  1. 時效性:高
  2. 質量:準
  3. 容錯:穩
  4. 多樣性:多(精確、只多很多、丟sla)
相關文章
相關標籤/搜索