什麼是實時流式計算?

實時流式計算,也就是RealTime,Streaming,Analyse,在不一樣的領域有不一樣的定義,這裏咱們說的是大數據領域的實時流式計算。 實時流式計算,或者是實時計算,流式計算,在大數據領域都是差很少的概念。那麼,到底什麼是實時流式計算呢? 谷歌大神Tyler Akidau在《the-world-beyond-batch-streaming-101》一文中提到過實時流式計算的三個特徵: 一、無限數據 二、無界數據處理 三、低延遲html

無限數據指的是,一種不斷增加的,基本上無限的數據集。這些一般被稱爲「流數據」,而與之相對的是有限的數據集。 無界數據處理,一種持續的數據處理模式,可以經過處理引擎重複的去處理上面的無限數據,是可以突破有限數據處理引擎的瓶頸的。 低延遲,延遲是多少並無明確的定義。但咱們都知道數據的價值將隨着時間的流逝下降,時效性將是須要持續解決的問題。框架

如今大數據應用比較火爆的領域,好比推薦系統在實踐之初受技術所限,可能要一分鐘,一小時,甚至更久對用戶進行推薦,這遠遠不能知足須要,咱們須要更快的完成對數據的處理,而不是進行離線的批處理。 可是這種模型確定會帶來離線批處理所不存在的兩個問題:正確性與時間。 而這也正是實時流式計算的關鍵點: 一、正確性 一旦正確性有了保證,能夠匹敵批處理。 二、時間推導工具 而一旦提供了時間推導的工具,變徹底超過了批處理。機器學習

總結來講,咱們獲得的會是一條條的,隨着時間流逝不斷增加的數據,咱們須要進行實時的數據分析,咱們要解決大數據量,災備,時序,時間窗口,性能等等問題。 而實時,流式實際上是相對的概念,如今的不少技術更應該說是近實時,微批。但只要能不斷的優化這些問題,實時流式的計算的價值就會愈來愈大。ide

因爲大數據興起之初,Hadoop並無給出實時計算解決方案,隨後Storm,SparkStreaming,Flink等實時計算框架應運而生,而Kafka,ES的興起使得實時計算領域的技術愈來愈完善,而隨着物聯網,機器學習等技術的推廣,實時流式計算將在這些領域獲得充分的應用。 下面簡單介紹目前經常使用的幾種應用場景,將來將對Kafka,Storm,SparkStreaming,Flink等相關技術作具體介紹。工具

主要應用oop

一、日誌分析 好比對網站的用戶訪問日誌進行實時的分析,計算訪問量,用戶畫像,留存率等等,實時的進行數據分析,幫助企業進行決策。 性能

二、物聯網 好比對電力系統進行實時的數據檢測,進行報警,實時的顯示,或者根據歷史數據進行實時的分析,預測。 學習

三、車聯網 現在的車聯網已經不限於物聯網,還包括對用戶,交通等等進行分析的一個龐大的系統,改善用戶出行。 大數據

四、金融風控 經過對交易等金融行爲實時分析,預測出未知風險。 優化

還有不少應用的領域,並且將來會愈來愈多,在這個過程當中具體的業務,以及與技術結合能產生什麼樣的價值,還須要不斷的探索。

《the-world-beyond-batch-streaming-101》地址: https://www.oreilly.com/ideas/the-world-beyond-batch-streaming-101

更多實時計算相關技術博文,歡迎關注實時計算

原文出處:https://www.cnblogs.com/tree1123/p/11325009.html

相關文章
相關標籤/搜索