探尋流式計算

1、靜態數據和流數據

靜態數據:爲了支持決策分析而構建的數據倉庫系統,其中存放的大量歷史數據就是靜態數據。html

流數據:以大量、快速、時變的流形式持續到達的數據。(例如:實時產生的日誌、用戶實時交易信息)數據庫

流數據具備如下特色:apache

(1)、數據快速持續到達,潛在大小也許是無窮無盡的。 (2)、數據來源衆多,格式複雜。 (3)、數據量大,可是不十分關注存儲,一旦通過處理,要麼被丟棄,要麼被歸檔存儲(存儲於數據倉庫)。 (4)、注重數據的總體價值,不過度關注個別數據。 (5)、數據順序顛倒,或者不完整,系統沒法控制將要處理的新到達的數據元素的順序。編程

在傳統的數據處理流程中,老是先收集數據,而後將數據放到DB中。而後對DB中的數據進行處理。緩存

流計算:爲了實現數據的時效性,實時消費獲取的數據。數據結構

2、批量計算和流計算

批量計算:充裕時間處理靜態數據,如Hadoop。實時性要求不高。架構

流計算:實時獲取來自不一樣數據源的海量數據,通過實時分析處理,得到有價值的信息(實時、多數據結構、海量)。框架

流計算秉承一個基本理念,即數據的價值隨着時間的流逝而下降,如用戶點擊流。所以,當事件出現時就應該當即進行處理,而不是緩存起來進行批量處理。流數據數據格式複雜、來源衆多、數據量巨大,不適合採用批量計算,必須採用實時計算,響應時間爲秒級,實時性要求高。批量計算關注吞吐量,流計算關注實時性。分佈式

流計算的特色:函數

一、實時(realtime)且無界(unbounded)的數據流。流計算面對計算的 是實時且流式的,流數據是按照時間發生順序地被流計算訂閱和消費。且因爲數據發生的持續性,數據流將長久且持續地集成進入流計算系統。例如,對於網站的訪問點擊日誌流,只要網站不關閉其點擊日誌流將一直不停產生並進入流計算系統。所以,對於流系統而言,數據是實時且不終止(無界)的。

二、持續(continuos)且高效的計算。流計算是一種」事件觸發」的計算模式,觸發源就是上述的無界流式數據。一旦有新的流數據進入流計算,流計算馬上發起並進行一次計算任務,所以整個流計算是持續進行的計算。

三、流式(streaming)且實時的數據集成。流數據觸發一次流計算的計算結果,能夠被直接寫入目的數據存儲,例如將計算後的報表數據直接寫入RDS進行報表展現。所以流數據的計算結果能夠相似流式數據同樣持續寫入目的數據存儲。

3、流計算框架

爲了及時處理流數據,就須要一個低延遲、可擴展、高可靠的處理引擎。對於一個流計算系統來講,它應達到以下需求:

  • 高性能:處理大數據的基本要求,如每秒處理幾十萬條數據。

  • 海量式:支持TB級甚至是PB級的數據規模。

  • 實時性:保證較低的延遲時間,達到秒級別,甚至是毫秒級別。

  • 分佈式:支持大數據的基本架構,必須可以平滑擴展。

  • 易用性:可以快速進行開發和部署。

  • 可靠性:能可靠地處理流數據。

目前有三類常見的流計算框架和平臺:商業級的流計算平臺、開源流計算框架、公司爲支持自身業務開發的流計算框架。

(1)商業級: InfoSphere Streams(IBM)和StreamBase(IBM)。

(2)開源流計算框架,表明以下:Storm(Twitter)、 S4(Yahoo)。

(3)公司爲支持自身業務開發的流計算框架:Puma(Facebook)、Dstream(百度)、銀河流數據處理平臺(淘寶)。

4、流計算框架Storm

Storm是Twitter開源的分佈式實時大數據處理框架,隨着流計算的應用日趨普遍, Storm的知名度和做用日益提升。接下來介紹Storm的核心組件以及性能對比。

Storm的核心組件

  • Nimbus:即Storm的Master,負責資源分配和任務調度。一個Storm集羣只有一個Nimbus。

  • Supervisor:即Storm的Slave,負責接收Nimbus分配的任務,管理全部Worker,一個Supervisor節點中包含多個Worker進程。

  • Worker:工做進程,每一個工做進程中都有多個Task。

  • Task:任務,在 Storm 集羣中每一個 Spout 和 Bolt 都由若干個任務(tasks)來執行。每一個任務都與一個執行線程相對應。

  • Topology:計算拓撲,Storm 的拓撲是對實時計算應用邏輯的封裝,它的做用與 MapReduce 的任務(Job)很類似,區別在於 MapReduce 的一個 Job 在獲得結果以後總會結束,而拓撲會一直在集羣中運行,直到你手動去終止它。拓撲還能夠理解成由一系列經過數據流(Stream Grouping)相互關聯的 Spout 和 Bolt 組成的的拓撲結構。

  • Stream:數據流(Streams)是 Storm 中最核心的抽象概念。一個數據流指的是在分佈式環境中並行建立、處理的一組元組(tuple)的無界序列。數據流能夠由一種可以表述數據流中元組的域(fields)的模式來定義。

  • Spout:數據源(Spout)是拓撲中數據流的來源。通常 Spout 會從一個外部的數據源讀取元組而後將他們發送到拓撲中。根據需求的不一樣,Spout 既能夠定義爲可靠的數據源,也能夠定義爲不可靠的數據源。一個可靠的 Spout可以在它發送的元組處理失敗時從新發送該元組,以確保全部的元組都能獲得正確的處理;相對應的,不可靠的 Spout 就不會在元組發送以後對元組進行任何其餘的處理。一個 Spout能夠發送多個數據流。

  • Bolt:拓撲中全部的數據處理均是由 Bolt 完成的。經過數據過濾(filtering)、函數處理(functions)、聚合(aggregations)、聯結(joins)、數據庫交互等功能,Bolt 幾乎可以完成任何一種數據處理需求。一個 Bolt 能夠實現簡單的數據流轉換,而更復雜的數據流變換一般須要使用多個 Bolt 並經過多個步驟完成。

  • Stream grouping:爲拓撲中的每一個 Bolt 的肯定輸入數據流是定義一個拓撲的重要環節。數據流分組定義了在 Bolt 的不一樣任務(tasks)中劃分數據流的方式。在 Storm 中有八種內置的數據流分組方式。

  • Reliability:可靠性。Storm 能夠經過拓撲來確保每一個發送的元組都能獲得正確處理。經過跟蹤由 Spout 發出的每一個元組構成的元組樹能夠肯定元組是否已經完成處理。每一個拓撲都有一個「消息延時」參數,若是 Storm 在延時時間內沒有檢測到元組是否處理完成,就會將該元組標記爲處理失敗,並會在稍後從新發送該元組。

(圖1:Storm核心組件)

(圖2:Storm編程模型)

主流計算引擎的對比

目前比較流行的實時處理引擎有 Storm,Spark Streaming,Flink。每一個引擎都有各自的特色和應用場景。 下表是對這三個引擎的簡單對比。

(圖3:主流引擎性能對比)

總結:流計算的出現拓寬了咱們應對複雜實時計算需求能力。Storm做爲流計算的利器,極大方便了咱們的應用。流計算引擎還在不斷髮展,基於Storm和Flink開發的JStorm,Blink等計算引擎在性能各方面都有極大的提升。流計算值得咱們繼續關注。

參考資料:

【1】http://storm.apache.org/releases/current/Concepts.html

【2】https://en.wikipedia.org/wiki/Storm_(event_processor)

【3】https://toutiao.io/posts/88a6nt

【4】https://blog.csdn.net/fjse51/article/details/53886516

【5】http://www.javashuo.com/article/p-sibmjyds-bc.html

【6】https://www.douban.com/note/642346037/

【7】https://www.cnblogs.com/ostin/articles/7256003.html

【8】https://tech.meituan.com/real_timedata_measure.html

【9】http://www.cnblogs.com/jiyukai/p/9471944.html

做者:姚遠

來源:宜信技術學院

相關文章
相關標籤/搜索