大數據爭論:批處理與流處理的C位之戰

  數據無疑是當今數字經濟中的新貨幣,但要跟上企業數據變化和遞增的業務信息需求,仍然是很是艱難。這也就解釋了公司將數據從傳統基礎構架中遷移至雲中,以衡量數據驅動決策的緣由。這可確保公司寶貴資源——數據——受到監管,值得信任,方便管理和訪問。數據庫

  雖然企業也承認:基於雲的技術是確保跨企業間的數據管理、數據安全、隱私和流程合規性的關鍵,但關於如何更快地處理數據仍然存在一個有趣的爭論。那就是批處理與流處理之間的PK。安全

  每種處理方法都有其優缺點,但如何選擇仍是依據具體的業務需求。下面會深刻探討哪些用例須要使用批處理,又有哪些用例須要使用流處理。架構

  批處理和流處理之間有什麼區別?工具

  批次是在特定時間間隔內組合在一塊兒的數據點集合。一般用於此的另外一個術語是數據窗口。流處理,用於處理連續數據,是將大數據轉換爲快速數據的關鍵。這兩種模型都頗有價值,每種模型均可用於解決不一樣的用例。他們甚至能夠「融合」,能夠在數據流中作數據窗口,也就是微批量。大數據

  雖然批處理模型須要時間段內收集的一組數據,但流處理須要將數據送入分析工具中,一般以實時微批量方式送入。處理來自傳統架構的大量數據或數據源時常用批處理,而在流中直接處理數據是不可行的。根據定義,批處理數據還須要將批處理須要的全部數據加載成某種類型的存儲、數據庫或文件系統,而後才進行處理。有時,在開始分析階段以前,IT團隊可能會無所事事地等待,直至全部數據加載完成。blog

 

  流處理也能夠用於處理大量數據,可是當您不須要實時分析時,批處理工做效果最佳。因爲流處理負責處理運動中的數據並快速提供分析結果,所以它能夠用Apache Spark和Apache Beam等平臺生成近乎即時的結果。遊戲

  

  例如,Talend最近發佈的Talend Data Streams是一款免費的亞馬遜市場應用程序,由Apache Beam提供支持,可簡化並加速大量數據,攝取各類實時數據。事件

  批處理必定比流處理好嗎?資源

  不管您喜歡批處理仍是支持流處理,二者「融合「時會更好。雖然流處理最適合時間很重要的用例,批處理在收集全部數據時運行良好,但這不表明哪個比另外一個好-這實際上取決於您的業務目標。基礎

  然而,咱們看到試圖利用流處理的公司發生了重大轉變。最近對超過16,000名數據專員的調查顯示,數據科學麪臨的最多見挑戰包括髒數據、總體訪問、或數據可用性等各方面。不幸的是,因爲數據處於運動狀態,流式傳輸每每會加重這些挑戰。在「跳槽」至實時的流處理以前,解決這些可訪問性和數據質量問題是關鍵。

  

  當咱們與企業討論他們如何收集數據並加速創新時,他們一般回答說:「想要實時的數據」,咱們再問:「實時對您意味着什麼?」

  商業用例可能會有所不一樣,但實時取決於事件建立或數據建立相對於處理時間的比例,多是每小時,每五分鐘或每毫秒。

  公司爲什麼將數據批處理轉換爲數據流處理?下面我打一個比方。想象一下,你剛剛從你最喜歡的啤酒廠訂購了一批啤酒,客人已準備好喝酒了。但在你能喝酒以前,你必須根據啤酒花的味道對啤酒進行評分,並編輯在線評論對每種啤酒進行評分。若是你知道每換一種啤酒喝就要完成相同的、重複的過程,那麼從一種啤酒到另外一種啤酒須要至關長的時間。對於一個企業來講,啤酒至關於管道數據。不是等到你全部的數據後進行處理,而是你能夠在幾秒或幾毫秒內微批量處理它(這意味着你能夠更快地喝啤酒!)。

  爲何選流處理?

  若是你長時間沒使用過流處理,你可能會問:「爲何咱們不能像之前同樣批處理?」你固然能夠,但若是你有大量的數據,什麼時候須要提取數據很簡單,但什麼時候須要使用它很難。

  公司將實時數據視爲遊戲規則改變者。但若是沒有適當的工具,實現這一目標仍然是一個挑戰,特別是由於企業須要處理遞增的數量、種類和數據類型,它們來自衆多不一樣數據系統(如社交媒體)的。在Talend,咱們看到企業一般但願擁有更靈活的數據處理,以便他們可以加速創新,並更快地應對競爭威脅。

  例如,來自風力渦輪機上的傳感器始終開啓着。所以,數據流不間斷地流動。因爲沒有數據的啓動或中止,所以典型攝取或處理此數據的批處理方法已過期。這是一個使用流處理的完美用例。

  大數據爭論

  很明顯,企業正在將實時分析/流處理的優先級轉移到實時收集可操做的信息。雖然過期的工具沒法應對分析數據所涉及的速度或規模,但今天的數據庫和流處理應用程序已經準備好應對當今的業務問題。

  如下是大數據爭論中的重要內容:僅僅由於你有錘子並不意味着這是工做的正確工具。批處理和流處理是兩種不一樣的模型,它不是二選一的遊戲,它是關於如何肯定哪種更適合您的用例的判斷。

相關文章
相關標籤/搜索