持續定義Saas模式雲數據倉庫+實時分析

簡介: 從實時分析的價值、場景和數據流程,以及用戶對平臺能力要求展開,講述雲數據倉庫MaxCompute的產品能力優點 ,面對實時分析場景的能力演進要求。進而以實時分析典型場景的全數據流程處理、建模和分析的最佳實踐,講解MaxCopute+Hologres的解決方案,展示強強組合應的能力優點。segmentfault

1、雲數據倉庫概述安全

數據倉庫的定義是面向主題、集成性、穩定性和時變性,用於支持管理決策。 數據倉庫的意義在於對企業的全部數據進行歸集,爲企業各個部門提供統一的, 規範的數據出口。
數據倉庫(模型)本質是人收集和存儲數據,認識數據,組織和管理數據,使用數據決策的最佳實踐造成的方法論。 模型自己與在哪、用什麼技術無關。 但邏輯模型和物理模型在最終方案中又是緊密結合的。用戶須要的是數倉的業務能力和技術能力。服務器

image.png

數據倉庫的核心能力和價值包括:採集同步、加工、存儲、建模、治理、查詢。可是爲了實現數據倉庫的能力和價值必需要具有的基礎包括: IDC機房、部署、開通、高可用、安全、平常運 維、擴容。這些構成了數倉總擁有成本。從各個角度看,總成本=核心能力成本+基礎成本 =產品成本+服務成本 =當前成本+長期成本+演進成本。
MaxCompute是SaaS模式企業級雲數據倉庫。SaaS模式雲數據倉庫具備以下特色:• 開箱即用 • 大規模高性能 • 免運維、專家優化 • 靈活擴展 • 數據服務 • 豐富完善的數倉能力 • 高可用,容災備份 • 極致安全 • 低成本 • 能力快速演進。可以爲企業免去擁有數據倉庫的基礎建設成本、維護成本、長期演進成本等非核心能力以外的投入。架構

image.png

SaaS模式雲數據倉庫可能的應用場景舉例以下:
• 實時數據入倉和分析決策
• 業務運營場景-交互式業務指標計算、查詢
• 各行業搭建數據倉庫-流批一體、湖倉一體  雲上彈性擴展大數據計算和存儲。app

SaaS模式雲數據倉庫的產品優點包括:
• 雲原生極致彈性:雲原生設計,無服務器架構,支持秒級彈性伸縮, 快速實現大規模彈性負載需求
• 簡單易用多功能計算:預置多種計算模型和數據通道能力,開通即用
• 企業級平臺服務:支持開放生態,提供企業級安全管理能力。與阿里 雲衆多大數據服務無縫集成
• 安全:多租戶環境下安全控制能力強
• 大規模集羣性能強、全鏈路穩定性高,阿里巴巴雙11場景驗證。運維

SaaS模式雲數據倉庫推薦場景和產品組合例如:
• 實時分析場景-MaxCompute+MC-Hologres+Flink+DataWorks+Quick BI
• 機器學習場景-MaxCompute+PAI+DataWorks。等。
今天重點講解實時分析場景。機器學習

image.png

雲數據倉庫包含的面向用戶的功能和數據流程,以下圖所示。開通MaxCompute雲數倉便可擁有以下所有功能和能力。工具

image.png

2、實時分析場景與價值
再提一遍大數據的5V能力性能

1 容量(Volume) 是指大規模的數據量,而且數據量呈持續增加趨勢。目前通常指超過10T規模的數據量,但將來隨着技術的進步,符合大數據標準的數據集大小也會變化。
2 速率(Velocity) 即數據生成、流動速率快。數據流動速率指指對數據採集、存儲以及分析具備價值信息的速度。所以也意味着數據的採集和分析等過程必須迅速及時。
3 多樣性(Variety) 指是大數據包括多種不一樣格式和不一樣類型的數據。數據來源包括人與系統交互時與機器自動生成,來源的多樣性致使數據類型的多樣性。根據數據是否具備必定的模式、 結構和關係,數據可分爲三種基本類型:結構化數據、非結構化數據、半結構化數據。
4 真實性(Veracity) 指數據的質量和保真性。大數據環境下的數據最好具備較高的信噪比。
5 價值(Value) 即低價值密度。隨着數據量的增加,數據中有意義的信息卻沒有成相應比例增加。而價值同時與數據的真實性和數據處理時間相關,見圖。
其中最關鍵的一點是:越接近數據源,越早進行分析和決策,越能發揮數據價值。學習

image.png

實時分析的場景能夠用如下兩個類比演化出來:
類比1:大酒店同時具有其餘綜合業務,發展出餐 飲(實時)業務,用以更好的發揮協同做用。
演化1:以數倉分析爲主場景,根據業務實時性需 求進行實時分析,構建實時通道和實時交互式分析, 造成Lambda架構。

類比2:飯店從餐飲(實時)業務發展而來, 須要更好的外圍支持做用,並向綜合性發展。
演化2:以實時分析爲主場景,造成流式架 構,又須要能從數倉快速提取數據,和數據 源回放,造成kappa架構,後續還要考慮實 時數據和模型如何入倉。

image.png

詳細分析這兩種演化場景以下:
以數倉分析爲主場景,根據業務實時性需求進 行實時分析,構建實時通道和實時交互式分析, 造成Lambda架構 例如IOT設備監控分析,下發策略,設備接收 後上報新數據當即進行分析,對比以前的結果, 反覆分析調優。
以實時分析爲主場景,造成流式架構,又須要能從 數倉快速提取數據,和數據源回放,造成kappa 架構,後續還要考慮實時數據和模型如何入倉 例如欺詐監控,必須第一時間獲取分析結論,並關 聯標籤精準識別,最後實時數據落入數倉與其餘數 據融合造成知識。

image.png

進一步的,實時分析的主要能力要求以下:
1 應用生態:
• 開發者生態 • 豐富的API、SDK • BI工具無縫對接 • 流式處理工具和分佈 式消息隊列無縫對接。
2 極速查詢響應:
• 毫秒級響應速度,輕 鬆知足客戶海量數據 複雜多維分析需求 • 千萬QPS點查 • 上千QPS簡單查詢。
3 實時存儲:
• 億級寫入TPS • 寫入便可查詢。
4數倉查詢加速:
• 直接分析 • 無數據搬遷 • 無冗餘存儲 • 統一權限。
5 聯合計算:
• 統一建模方法 • 統一元數據 • 統一的管控治理體系 • 分層劃域架構下的演 進和整合。

image.png

3、MaxCompute雲數倉+實時分析

常見的Lambda架構有三大問題。
首先,一致性難題: • 兩套代碼,兩套邏輯 • 流和批語義徹底不一樣 • 離線層和實時層數據存儲和變換方式徹底不一樣。
第二,環環相扣、多套系統、運維複雜、成本高昂: • 多個不一樣的系統 • 大量的同步任務 • 資源消耗巨大 • 不一樣系統標準規範不統一。
第三,開發週期長、業務不敏捷: • 錯誤難以診斷和定位 • 修訂、補數週期長 • 沒法自助實時分析 • 沒法響應變化 • 分析到服務的轉化週期長。

image.png

以搜索推薦精細化運營的場景案例進行分析,開源方案的能力分散。以下圖所示,KVStore,MPP,實時數倉,數倉具備多種能力,最好能有一種技術方案將多種能力統一於一個引擎。將存儲、實時數倉、交互式分析、點查、OLAP分析等能力集於一身。MaxCompute Hologres便是這個產品和解決方案。

image.png

MaxCompute Hologres將實時分析的架構變得簡單和高效。以實時分析爲中心設計, Hologres可以實現實時寫入和實時分析、查詢。MaxCompute Hologres提出雲原生HSAP架構中,一份數據同時用於實時分析、在線服務和實時離線數據統一存儲,與SaaS模式雲數據倉庫MaxCompute完美結合。

image.png

另外一種場景,MaxCompute Hologres能夠做爲雲數據倉庫MaxCompute分析加速能力模塊和ADS層建模能力模塊。無數據搬遷、數據分析效率高。ADS層建模+服務統1、OLAP加強,以下圖所示。

image.png

再看kappa架構,Kappa架構是基於流式架構的升級,須要回放和關聯數倉,後續還要考慮實時數據和模型如何入倉。開源方案實時數倉有如下問題:實時成本高、開發週期長、業務支持不靈活。
Kappa架構的原理就是在Lambda 的基礎上進行了優化,將實時分析和流部分進行了合併,將數據 存儲和通道以消息隊列進行替代。所以對於Kappa架構來講,依舊以流處理爲主,可是數據卻在數據湖 層面進行了存儲和簡單建模,當須要進行離線分析或者再次計算的時候,則將數據湖的數據再次通過消息隊 列重播一次。Kappa架構看起來簡潔,可是施難度相對較高,尤爲是對於數據回放部分。

image.png

以下圖所示,MaxCompute Hologres能夠將實時、離線、分析、服務一體化,作到了實時離線聯合分析,冷熱溫三類數據全洞察。

image.png

4、實時分析案例

針對實時分析的經常使用場景,Saas模式雲數據倉庫MaxCompute在擁有了Hologres後提出了:實時、離線、分析、服務一體化方案。即前文描述的Lambda架構簡化、交互查詢加強、kappa架構加強,實時離線聯合分析,冷熱溫三類數據全洞察的方案能力。
此方案適用於電商、遊戲、社交等互聯網行業數據化運營,如智能推薦、日誌採集分析、用戶畫像、數據治理、業務大屏、搜索等場景。
方案優點:阿里巴巴最佳實踐的大數據平臺,1)技術領先性;2)降本提效;3)高附加值業務收益;
涉及產品: 日誌服務SLS、數據傳輸DTS、DataHub、實時計算Flink、交互式分析、雲數倉MaxCompute、數據治理DataWorks、Quick BI 報表、 DataV大 屏、ES搜索、機器學習PAI。

image.png

小影是一款原創視頻、全能剪輯的短視頻社區APP,面向大衆提供短視頻創做工具,包括視頻剪輯、教 程玩法、視頻拍攝,谷歌應用商城收入榜前五,全球累計用戶突破8.9億。

用戶標籤數據開發:客戶經過 MaxCompute 針對每 天APP產生的客戶基礎屬性數據、 行爲日誌數據、內容數據等進行 計算,天天離線更新用戶標籤的 數據,支持營銷業務的使用。

用戶畫像實時洞察:客戶基於MC離線計算好的用戶標 籤,經過MC-Hologres進行多標 籤、多維度的實時分析,瞭解用戶 屬性標籤與內容標籤之間的關聯性, 洞察交叉銷售機會,並經過人羣圈 選,進行APP消息PUSH。

實時視頻推薦:客戶經過Flink + MaxCompute +MC- Hologres +PAI搭建個性化 實時推薦系統,基於用戶特徵和實 時行爲特徵,實時推薦個性化的短 視頻內容。

image.png

原文連接本文爲阿里雲原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索