本文會簡述大數據分析場景須要解決的技術挑戰,討論目前主流大數據架構模式及其發展。最後咱們將介紹如何結合雲上存儲、計算組件,實現更優的通用大數據架構模式,以及該模式能夠涵蓋的典型數據處理場景。html
如今已經有愈來愈多的行業和技術領域需求大數據分析系統,例如金融行業須要使用大數據系統結合VaR(value at risk)或者機器學習方案進行信貸風控,零售、餐飲行業須要大數據系統實現輔助銷售決策,各類IOT場景須要大數據系統持續聚合和分析時序數據,各大科技公司須要創建大數據分析中臺等等。
抽象來看,支撐這些場景需求的分析系統,面臨的都是大體相同的技術挑戰:算法
Lambda架構數據庫
Lambda架構是目前影響最深入的大數據處理架構,它的核心思想是將不可變的數據以追加的方式並行寫到批和流處理系統內,隨後將相同的計算邏輯分別在流和批系統中實現,而且在查詢階段合併流和批的計算視圖並展現給用戶。Lambda的提出者Nathan Marz還假定了批處理相對簡單不易出現錯誤,而流處理相對不太可靠,所以流處理器可使用近似算法,快速產生對視圖的近似更新,而批處理系統會採用較慢的精確算法,產生相同視圖的校訂版本。
架構
圖 1 Lambda架構示例併發
Lambda架構典型數據流程是(http://lambda-architecture.net/):app
Lambda架構設計推廣了在不可變的事件流上生成視圖,而且能夠在必要時從新處理事件的原則,該原則保證了系統隨需求演進時,始終能夠建立相應的新視圖出來,切實可行的知足了不斷變化的歷史數據和實時數據分析需求。框架
Lambda架構的四個挑戰less
Lambda架構很是複雜,在數據寫入、存儲、對接計算組件以及展現層都有複雜的子課題須要優化:運維
流批融合的Lambda架構機器學習
針對Lambda架構的問題3,計算邏輯須要分別在流批框架中實現和運行的問題,很多計算引擎已經開始往流批統一的方向去發展,例如Spark和Flink,從而簡化lambda架構中的計算部分。實現流批統一一般須要支持:1.以相同的處理引擎來處理實時事件和歷史回放事件;2.支持exactly once語義,保證有無端障狀況下計算結果徹底相同;3.支持以事件發生時間而不是處理時間進行窗口化;
Kappa架構
Kappa架構由Jay Kreps提出,不一樣於Lambda同時計算流計算和批計算併合並視圖,Kappa只會經過流計算一條的數據鏈路計算併產生視圖。Kappa一樣採用了從新處理事件的原則,對於歷史數據分析類的需求,Kappa要求數據的長期存儲可以以有序log流的方式從新流入流計算引擎,從新產生歷史數據的視圖。
圖2 Kappa大數據架構
Kappa方案經過精簡鏈路解決了1數據寫入和3計算邏輯複雜的問題,但它依然沒有解決存儲和展現的問題,特別是在存儲上,使用相似kafka的消息隊列存儲長期日誌數據,數據沒法壓縮,存儲成本很大,繞過方案是使用支持數據分層存儲的消息系統(如Pulsar,支持將歷史消息存儲到雲上存儲系統),可是分層存儲的歷史日誌數據僅能用於Kappa backfill做業,數據的利用率依然很低。
Lambda和Kappa的場景區別:
Kappa+
Kappa+是Uber提出流式數據處理架構,它的核心思想是讓流計算框架直讀HDFS類的數倉數據,一併實現實時計算和歷史數據backfill計算,不須要爲backfill做業長期保存日誌或者把數據拷貝回消息隊列。Kappa+將數據任務分爲無狀態任務和時間窗口任務,無狀態任務比較簡單,根據吞吐速度合理併發掃描全量數據便可,時間窗口任務的原理是將數倉數據按照時間粒度進行分區存儲,窗口任務按時間序一次計算一個partition的數據,partition內亂序併發,全部分區文件所有讀取完畢後,全部source才進入下個partition消費並更新watermark。事實上,Uber開發了Apache hudi框架來存儲數倉數據,hudi支持更新、刪除已有parquet數據,也支持增量消費數據更新部分,從而系統性解決了問題2存儲的問題。下圖3是完整的Uber大數據處理平臺,其中Hadoop -> Spark -> Analytical data user涵蓋了Kappa+數據處理架構。
圖3 Uber圍繞Hadoop dataset的大數據架構
混合分析系統的Kappa架構
Lambda和Kappa架構都還有展現層的困難點,結果視圖如何支持ad-hoc查詢分析,一個解決方案是在Kappa基礎上衍生數據分析流程,以下圖4,在基於使用Kafka + Flink構建Kappa流計算數據架構,針對Kappa架構分析能力不足的問題,再利用Kafka對接組合ElasticSearch實時分析引擎,部分彌補其數據分析能力。可是ElasticSearch也只適合對合理數據量級的熱數據進行索引,沒法覆蓋全部批處理相關的分析需求,這種混合架構某種意義上屬於Kappa和Lambda間的折中方案。
圖4 Kafka + Flink + ElasticSearch的混合分析系統
Lambda plus是基於Tablestore和Blink打造的雲上存在能夠複用、簡化的大數據架構模式,架構方案全serverless即開即用,易搭建免運維。
表格存儲(Tablestore)是阿里雲自研的NoSQL多模型數據庫,提供PB級結構化數據存儲、千萬TPS以及毫秒級延遲的服務能力,表格存儲提供了通道服務(TunnelService)支持用戶以按序、流式地方式消費寫入表格存儲的存量數據和實時數據,同時表格存儲還提供了多元索引功能,支持用戶對結果視圖進行實時查詢和分析。
Blink是阿里雲在Apache Flink基礎上深度改進的實時計算平臺,Blink旨在將流處理和批處理統一,實現了全新的 Flink SQL 技術棧,在功能上,Blink支持如今標準 SQL 幾乎全部的語法和語義,在性能上,Blink也比社區Flink更增強大。
在TableStore + blink的雲上Lambda架構中,用戶能夠同時使用表格存儲做爲master dataset和batch&stream view,批處理引擎直讀表格存儲產生batch view,同時流計算引擎經過Tunnel Service流式處理實時數據,持續生成stream view。
圖5 Tablestore + Blink的Lambda plus大數據架構
如上圖5,其具體組件分解:
Lambda batch層:
Streaming層:
Serving層:
圖6 Lambda plus的數據鏈路
針對上述Lambda架構1-4的技術問題,Lambda plus的解決思路:
總結,表格存儲實現了batch view、master dataset直接查詢、stream view的功能全集,Blink實現流批統一,Tablestore加blink的Lambda plus模式能夠明顯簡化Lambda架構的組件數量,下降搭建和運維難度,拓展用戶數據價值。
存儲引擎的高併發、低延遲特性:
使用通道服務精簡架構:
基於Tablestore和Blink的Lambda plus架構,適用於基於分佈式NoSQL數據庫存儲數據的大數據分析場景,如IOT、時序數據、爬蟲數據、用戶行爲日誌數據存儲等,數據量以TB級爲主。典型的業務場景如:
能夠參考下列資源快速體驗表格存儲+blink的大數據架構、表格存儲多元索引及其相關場景:
本文做者:Dendi
本文爲雲棲社區原創內容,未經容許不得轉載。