根據最新的統計顯示,僅在過去的兩年中,當今世界上90%的數據都是在新產生的,天天建立2.5萬億字節的數據,而且隨着新設備,傳感器和技術的出現,數據增加速度可能會進一步加快。
從技術上講,這意味着咱們的大數據處理將變得更加複雜且更具挑戰性。並且,許多用例(例如,移動應用廣告,欺詐檢測,出租車預訂,病人監護等)都須要在數據到達時進行實時數據處理,以便作出快速可行的決策。這就是爲何分佈式流處理在大數據世界中變得很是流行的緣由。api
現在,有許多可用的開源流框架。有趣的是,幾乎全部它們都是至關新的,僅在最近幾年纔開發出來。所以,對於新手來講,很容易混淆流框架之間的理解和區分。在本文中,我將首先大體討論流處理的類型和方面,而後比較最受歡迎的開源流框架:Flink,SparkStreaming,Storm,KafkaStream。我將嘗試(簡要地)解釋它們的工做原理,它們的用例,優點,侷限性,異同。網絡
流處理的最優雅的定義是:一種數據處理引擎,其設計時考慮了無限的數據集。架構
與批處理不一樣,批處理以工做中的開始和結束爲界,而工做是在處理有限數據以後完成的,而流處理則是指接二連三地處理天,月,年和永久到來的無邊界數據。所以,流媒體應用程序始終須要啓動和運行,所以難以實現且難以維護。框架
流處理的重要方面:分佈式
爲了理解任何Streaming框架的優勢和侷限性,咱們應該瞭解與Stream處理相關的一些重要特徵和術語:ide
流處理的兩種類型:函數
如今瞭解了咱們剛剛討論的術語,如今很容易理解,有兩種方法能夠實現Streaming框架:微服務
原生流處理:
這意味着每條到達的記錄都會在到達後當即處理,而無需等待其餘記錄。有一些連續運行的過程(根據框架,咱們稱之爲操做員/任務/螺栓),這些過程將永遠運行,每條記錄都將經過這些過程進行處理。示例:Storm,Flink,Kafka Streams,Samza。oop
微批處理:
也稱爲快速批處理。這意味着每隔幾秒鐘就會將傳入的記錄分批處理,而後以單個小批處理的方式處理,延遲幾秒鐘。例如:Spark Streaming, Storm-Trident。性能
兩種方法都有其優勢和缺點。
原生流傳輸感受很天然,由於每條記錄都會在到達記錄後當即進行處理,從而使框架可以實現最小的延遲。但這也意味着在不影響吞吐量的狀況下很難實現容錯,由於對於每條記錄,咱們都須要在處理後跟蹤和檢查點。並且,狀態管理很容易,由於有長時間運行的進程能夠輕鬆維護所需的狀態。
另外一方面,微批處理則徹底相反。容錯是免費提供的,由於它本質上是一個批處理,吞吐量也很高,由於處理和檢查點將在一組記錄中一次性完成。但這會花費必定的等待時間,而且感受不天然。高效的狀態管理也將是維持的挑戰。
Storm :
Storm是流處理世界的強者。它是最古老的開源流框架,也是最成熟和可靠的框架之一。這是真正的流傳輸,適合基於簡單事件的用例。
優勢:
缺點
Spark Streaming :
Spark已成爲批處理中hadoop的真正繼任者,而且是第一個徹底支持Lambda架構的框架(在該框架中,實現了批處理和流傳輸;實現了正確性的批處理;實現了流傳輸的速度)。它很是受歡迎,成熟並被普遍採用。Spark Streaming是隨Spark免費提供的,它使用微批處理進行流媒體處理。在2.0版本以前,Spark Streaming有一些嚴重的性能限制,可是在新版本2.0+中,它被稱爲結構化流,並具備許多良好的功能,例如自定義內存管理(相似flink),水印,事件時間處理支持等。另外,結構化流媒體更加抽象,在2.3.0版本之後,能夠選擇在微批量和連續流媒體模式之間進行切換。連續流模式有望帶來像Storm和Flink這樣的子延遲,可是它仍處於起步階段,操做上有不少限制。
優勢:
缺點
不是真正的流,不適合低延遲要求
要調整的參數太多。很難作到正確。
天生無國籍
在許多高級功能方面落後於Flink
Flink :
Flink也來自相似Spark這樣的學術背景。Spark來自加州大學伯克利分校,而Flink來自柏林工業大學。像Spark同樣,它也支持Lambda架構。可是實現與Spark徹底相反。雖然Spark本質上是一個批處理,其中Spark流是微批處理,而且是Spark Batch的特例,但Flink本質上是一個真正的流引擎,將批處理視爲帶邊界數據流的特例。儘管這兩個框架中的API都是類似的,可是它們在實現上沒有任何類似性。在Flink中,諸如map,filter,reduce等的每一個函數都實現爲長時間運行的運算符(相似於Storm中的Bolt)
Flink看起來像是Storm的真正繼承者,就像Spark批量繼承了hadoop同樣。
優勢:
缺點
起步較晚,最初缺少採用
社區不如Spark大,但如今正在快速發展
Kafka Streams :
與其餘流框架不一樣,Kafka Streams是一個輕量級的庫。對於從Kafka流式傳輸數據,進行轉換而後發送回kafka頗有用。咱們能夠將其理解爲相似於Java Executor服務線程池的庫,但具備對Kafka的內置支持。它能夠與任何應用程序很好地集成,而且能夠當即使用。
因爲其重量輕的特性,可用於微服務類型的體系結構。Flink在性能方面沒有匹配之處,並且不須要運行單獨的集羣,很是方便而且易於部署和開始工做。
Kafka Streams的一個主要優勢是它的處理是徹底精確的端到端。多是由於來源和目的地均爲Kafka以及從2017年6月左右發佈的Kafka 0.11版本開始,僅支持一次。要啓用此功能,咱們只須要啓用一個標誌便可使用。
優勢:
缺點
Samza :
簡短介紹一下Samza。(Samza)看上去就像是(Kafka Streams)。有不少類似之處。這兩個框架都是由同一位開發人員開發的,這些開發人員在LinkedIn上實現了Samza,而後在他們建立Kafka Streams的地方成立了Confluent。這兩種技術都與Kafka緊密結合,從Kafka獲取原始數據,而後將處理後的數據放回Kafka。使用相同的Kafka Log哲學。Samza是Kafka Streams的縮放版本。Kafka Streams是一個用於微服務的庫,而Samza是在Yarn上運行的完整框架集羣處理。
優勢 :
缺點:
流框架比較:
咱們只能將技術與相似產品進行比較。儘管Storm,Kafka Streams和Samza如今對於更簡單的用例頗有用,但具備最新功能的重量級產品之間的真正競爭顯而易見:Spark vs Flink
當咱們談論比較時,咱們一般會問:給我看數字
基準測試是僅當第三方進行比較時比較的好方法。
例如,但這是在Spark Streaming 2.0以前的某個時期,當時它受RDD的限制。
如今,隨着Structured Streaming 2.0版本的發佈,Spark Streaming試圖遇上不少潮流,並且彷佛還會面臨艱鉅的挑戰。
最近,基準測試已成爲Spark和Flink之間的一場激烈爭吵。
最好不要相信這些天的基準測試,由於即便很小的調整也能夠徹底改變數字。沒有什麼比決定以前嘗試和測試本身更好。
到目前爲止,很明顯,Flink在流分析領域處於領先地位,它具備大多數所需的方面,例如精確一次,吞吐量,延遲,狀態管理,容錯,高級功能等。
Flink的一個重要問題是成熟度和採用水平,直到一段時間以前,可是如今像Uber,Alibaba,CapitalOne這樣的公司正在大規模使用Flink流傳輸,證實了Flink Streaming的潛力。
最近,Uber開源了其最新的流分析框架AthenaX,該框架基於Flink引擎構建。
若是您已經注意到,須要注意的重要一點是,全部支持狀態管理的原生流框架(例如Flink,Kafka Streams,Samza)在內部都使用RocksDb。RocksDb從某種意義上說是獨一無二的,它在每一個節點上本地保持持久狀態,而且性能很高。它已成爲新流系統的關鍵部分。
如何選擇最佳的流媒體框架:
這是最重要的部分。誠實的答案是:這取決於 :
必須牢記,對於每一個用例,沒有一個單一的處理框架能夠成爲萬靈丹。每一個框架都有其優勢和侷限性。儘管如此,根據一些經驗,他們仍然會分享一些有助於作出決定的建議:
簡而言之,若是咱們很好地瞭解框架的優勢和侷限性以及用例,那麼選擇或至少過濾掉可用的選項就更加容易。最後,一旦選擇了幾個選項。畢竟每一個人都有不一樣的選擇。
Streaming的發展速度如此之快,以致於在信息方面,此帖子可能在幾年後已通過時。目前,Spark和Flink在開發方面是領先的重量級人物,但仍有一些新手能夠加入比賽。Apache Apex是其中之一。還有一些我沒有介紹的專有流解決方案,例如Google Dataflow。個人這篇文章的目的是幫助剛接觸流技術的人以最少的術語理解流技術的一些核心概念,以及流行的開源流框架的優勢,侷限性和用例。但願該文章對您有所幫助。
更多實時數據分析相關博文與科技資訊,歡迎關注 「實時流式計算」