下一代大數據處理引擎,阿里雲實時計算獨享模式重磅發佈

11月14日,阿里雲重磅發佈了實時計算獨享模式,即用戶獨享一部分物理資源,這部分資源在網絡/磁盤/CPU/內存等資源上跟其餘用戶徹底獨立,是實時計算在原有共享模式基礎上的重大升級。
(觀看實時計算髮佈會直播:https://yq.aliyun.com/live/591安全

獨享模式優勢更加突出
一、UDX開放:實時計算的共享模式是多個用戶共享一個物理機羣,在網絡/磁盤層面沒有辦法作到徹底隔離。所以,基於安全考慮,共享模式下沒法對您開放UDX/DataStream更靈活、更底層的API。在某些場景下,沒法知足您的業務需求。獨享模式在網絡及物理機層面,有徹底的隔離,所以能夠開通UDF等更底層的API,知足您的業務需求。網絡

二、豐富的硬件:業務愈來愈豐富,對底層機器的配置會有更多樣化需求,好比CPU:MEM配比,以及GPU、FPGA等硬件的需求。實時計算獨享集羣可充分複用阿里雲在硬件層面作的各類優化,爲您解決各類硬件適配問題。架構

三、用戶間的隔離:對於ECS獨享集羣,您可以獨享一批計算資源,且從網絡上進入您的VPC。既知足了您專網專用、資源獨享的需求,也能夠跟您的IDC打通,更貼近您的業務需求。運維

四、更豐富的功能:Data Lake場景下的ETL:經過SQL+UDF的方式,使ETL任務開發更加便利。異構數據源計算:支持從異構數據源讀取數據作分析。例如,遠程從OSS讀取數據歸檔日誌,並join hbase中高危ip,作網絡攻擊分析等等。支持30+數據源的源表和結果表。函數

2018年雙11,實時計算完成三項世界級挑戰
雙11是購物狂歡,也是對阿里技術的「大考」。天貓「雙11」的成交額衝破100億元只花了2分05秒,而突破千億大關,僅僅花了1小時47分鐘,比2017年快了7個多小時。這種瘋狂帶來了阿里史上最大的雙11流量洪峯,實時計算處理能力已經至關於一秒鐘內讀完120萬本2018年新版的《新華字典》。性能

圖片描述

2013年雙11購物狂歡節第一分鐘成交破億,一千多萬人同時涌入天貓。這些數據在杭州淘寶城內的數據大屏準實時播報。大屏上跳動的每一個數字,來自於阿里集團內部幾十個系統間的緊密合做,當在以最快速度秒殺到雙11熱賣商品的同時,這些系統已經完成了無數輪的數據採集、傳輸、加工、計算以及反饋到頁面的工做。這也是阿里雲實時計算技術的首次亮相。大數據

在2018年的雙11中,實時數據處理技術,包括日誌數據和交易數據的實時採集、分發、計算,最終在媒體直播大屏上實時渲染和展現,整個鏈路的穩定性保障壓力是巨大的。能夠說,實時計算完成了三項世界級的挑戰:
一、低延時,從零點第一筆交易發生,到媒體大屏上顯示出統計結果,整個處理過程延時控制在3秒之內;
二、實時計算處理峯值達到17.2億條/秒,實時計算的總體性能比去年提高了N倍;
三、高可用,全天服務不降級、無端障,扛下了高峯期全部的流量。優化

一站式、高性能實時大數據處理平臺
阿里雲實時計算是一套基於Apache Flink構建的一站式、高性能實時大數據處理平臺,普遍應用於流式數據處理、離線數據處理、DataLake計算等場景,助力企業向實時化、智能化大數據計算升級轉型。網站

基於Apache Flink在阿里巴巴搭建的平臺於2016年正式上線,並從阿里巴巴的搜索和推薦這兩大場景開始實現。爲了將Apache Flink在阿里巴巴真正運行起來,阿里巴巴實時計算團隊作了大量的優化,在阿里雲上的產品命名爲時時計算,以Flink SQL爲主要API,致力於打造一款全球領先的實時計算引擎。阿里雲

圖片描述

據瞭解,阿里雲實時計算脫胎於阿里集團內部雙11實時大屏業務,歷經長期摸索和發展,將阿里集團自己沉澱多年的實時計算產品、架構、業務可以以雲產品的方式對外提供服務,用戶能夠徹底享受到阿里集團最新最前沿的計算引擎能力,業務上可規避阿里集團多年在流式大數據的試錯和教訓,更快、更輕鬆地實時化大數據處理流程,助力業務發展。

通過多年沉澱,目前,阿里雲實時計算產品已具備國際領先的產品優點,在吞吐/時延、SQL支持、開發體驗、窗口支持、亂序支持、上下游對接等多方面都優於其餘雲廠商的相關產品。相對spark、storm等,阿里雲實時計算人力成本低,開發運維更加便利,還能夠無縫對接阿里雲數據存儲。用戶能夠充分利用阿里雲實時計算提供的產品優點,方便快捷的解決自身業務實時化大數據分析的問題。

圖片描述

切實解決用戶痛點
阿里雲實時計算能夠提供FlinkSQL協助用戶簡單輕鬆完成流式計算邏輯的處理。同時,受限於SQL代碼功能有限沒法知足某些特定場景的業務需求,阿里雲實時計算同時爲部分授信用戶提供全功能的UDF函數,幫助用戶完成業務定製化的數據處理邏輯。在流數據分析領域用戶直接使用FlinkSQL+UDF便可完成大部分流式數據分析處理邏輯,目前的實時計算更擅長於作流式數據分析、統計、處理。主要解決了用戶的三大痛點:

一、流式數據的及時性
數據的業務價值隨着時間的流失而迅速下降,所以在數據發生後必須儘快對其進行計算和處理。而傳統的大數據處理模式對於數據加工均遵循傳統日清日畢模式,即以小時甚至以天爲計算週期對當前數據進行累計並處理,顯然這類處理方式沒法知足數據實時計算的需求。在諸如實時大數據分析、風控預警、實時預測、金融交易等諸多業務場景領域,批量(或者說離線)處理對於上述對於數據處理時延要求苛刻的應用領域而言是徹底沒法勝任其業務需求的。而實時計算做爲一類針對流數據的實時計算模型,可有效地縮短全鏈路數據流時延、實時化計算邏輯、平攤計算成本,最終有效知足實時處理大數據的業務需求。

二、一站式的流式數據處理
不一樣於開源或者自建的流式處理服務,阿里雲實時計算是徹底託管的流式計算引擎,阿里雲可針對流數據運行查詢,無需預置或管理任何基礎設施,用戶能夠享受一鍵啓用的流式數據服務能力。阿里雲實時計算自然集成數據開發、數據運維、監控預警等服務,方便用戶最小成本試用和遷移流式計算產品。

三、SQL化的流式分析
支持標準SQL(產品名稱爲:FlinkSQL),提供內建的字符串處理、時間、統計等各種計算函數,替換業界低效且複雜的Flink開發,讓更多的BI人員、運營人員經過簡單的FlinkSQL能夠完成實時化大數據分析和處理,讓實時大數據處理普適化、平民化。

同時,實現實時的數據監控/分析。好比BI人員能夠看到本身網站實時的訪客數據變化,購買狀況,交易額波動等,不須要一段時間後才能作統計和分析。以前150人/月的工做,如今只需3我的/月就能夠輕鬆解決,效率提高了50倍。

使用場景普遍
實時計算擅長解決的幾個領域的應用場景包括,實時的網絡點擊PV、UV統計;統計交通卡口的平均5分鐘經過車流量;水利大壩的壓力數據統計和展示;網絡支付涉及金融盜竊固定行爲規則的告警等。特別適合BI人員、大數據開發人員等用戶。

實時計算擅長解決的幾個領域的應用場景包括,實時的網絡點擊PV、UV統計;統計交通卡口的平均5分鐘經過車流量;水利大壩的壓力數據統計和展示;網絡支付涉及金融盜竊固定行爲規則的告警等。特別適合BI人員、大數據開發人員等用戶。

大致分爲四種典型場景:
互聯網點擊流分析:實時分析網站用戶行爲,精準實時把握用戶畫像;
金融實時風控:實時監控金融惡意行爲,實時風控避免用戶損失;
物聯網IOT風控:實時監控偵測設備故障,即便避免潛在業務風險;
電商精準推薦:實時跟蹤用戶行爲變化,精準推薦提高產品銷量。

圖片描述

用戶案例豐富
通過兩年的發展,實時計算在集團內,淘寶、天貓、螞蟻金服、菜鳥、工業大腦等諸多業務均大量應用了實時計算技術。今年以來,衆安保險、全民TV、千尋、新華智雲等集團外部客戶也上線了諸多實時計算的典型場景和應用。

圖片描述

獨享模式應運而生

圖片描述

實時計算今年4月份商業化以來,一直以「共享模式」的形式對外輸出,在批處理領域,SQL 已經經歷了幾十年的考驗,是公認的經典。但另外一方面也對用戶形成兩大困擾:

1.僅使用 SQL難以描述本身的業務邏輯;
2.將某些已有的存在於代碼中的業務邏輯翻譯成SQL,煩不勝煩。

所以,實時計算獨享模式應運而生。獨享模式,是實時計算在原有共享模式基礎上的補充。用戶獨享一部分物理資源,這部分資源在網絡/磁盤/CPU/內存等資源上跟其餘用戶徹底獨立。具有UDX開放、豐富的硬件、用戶間的隔離等特性。

使用流程簡潔方便
實時計算的基本計量單位爲CU(Compute Unit,即計算資源),一個CU對應於實時計算底層系統是一個CPU的計算能力。實時計算底層使用虛擬化技術進行資源隔離,保證一個基本的CU消費且最大消費僅能爲一個CPU的計算能力。

產品的具體使用也十分方便,具體來講有如下幾步:
圖片描述

相關文章
相關標籤/搜索