數據中臺技術及業務發展史與將來趨勢展望

阿里巴巴數據技術編年 簡史

2003年淘寶誕生於杭州一間民居。次年,Google發表了三篇大數據論文將計算技術引入大數據時代。算法

2004年Doug Cutting和Mike Cafarella根據Google的論文實現了Hadoop的HDFS和MR計算框架。數據庫

2006年 Hadoop項目進入Apache社區。小程序

2008年9月Hive成爲Hadoop的子項目,以後成爲Apache的頂級項目。同年,淘寶開始實施基於Hadoop系統的數據計算平臺搬遷-雲梯1。微信小程序

2009年阿里雲誕生,阿里雲開始寫下Maxcompute第一行代碼,中國的各類雲端服務開始涌現。微信

2014年阿里巴巴實施登月計劃,完成基於Maxcompute平臺的數據平臺遷移-雲梯2,彙總全集團的數據業務到一個平臺上,完成數據公共層建設,OneData體系和集團的數據中臺漸趨成型。架構

2014年4月Intel投資Cloudera,放棄自主的Hadoop發行版,同年Cloudera進入中國市場。框架

2017年數據中臺產品Dataphin產品問世,同時支持Maxcompute和Hadoop大數據平臺,OneData內部的技術體系開始對外實現賦能。運維

2018年Cloudera和Hortonworks宣佈了公司合併,Hadoop發行版從多個廠商競爭變成寡頭間遊戲。分佈式

2020年基於Dataphin、品牌數據銀行,Quick Audience、Quick Stock數據中臺產品的全域營銷推出,阿里開始經過自有的數據體系賦能商家,數據中臺從純技術推廣到業務價值體現。工具

數據中臺理念應運而生時機

傳統的數據處理方式,特別是傳統的數倉平臺,其軟硬件採購成本,運維成本、技術門檻等都頗高。只有銀行、運營商等大型企業纔有能力和財力實現數據倉庫和數據集市的平臺建設。隨着大數據技術和雲上服務的普及,企業的運維成本和技術開發門檻大幅度下降,特別是具備極高性價比的雲端服務,簡單的部署,近乎無限的可擴展性和輕鬆的管理,綜合使用成本和便捷性都大大優於傳統數據平臺。所以,企業開始將其數據倉庫從傳統的Teradata、Oracle/IBM等平臺遷移到大數據平臺或雲服務中,時至今日,這一變化還在傳統企業中不斷的上演。

雲計算興起以後,數據庫和彈性計算(ECS)是最爲廣泛的產品,但隨着用戶在雲上業務的數據積累,企業開始對數據分析有了直接的需求。2011年阿里雲maxcompute大數據平臺上線,阿里雲邁入大數據時代。

隨着數據指數級的增加,數據處理的方式和模式發生了質的變化。傳統面向經營管理人員和少部分業務人員的數據支撐方式再也不能知足業務發展的需求。數據開發週期長、反應慢、應用面窄的弊端也愈來愈突出。企業及政府開始尋求應對市場變化和數據及時響應的方法,同時對數據的採集、開發、使用和管理提出了更高的要求。

企業須要進行數智化轉型,才能更有效地管理數據,更便捷地使用數據。阿里巴巴數據技術及產品部也認識到了數據處理方式必須有所改變,才能知足企業對數據開發效率,數據賦能業務產生價值和數據指導企業運營管理的需求,至此數據中臺理念孕育而生。它幫助阿里巴巴集團在以後幾年的激烈競爭中脫穎而出,並繼續幫助企業過渡到將來的競爭,這場趨勢之戰的背後是商業主導權的競爭。

數據中臺實質是實現數據價值化與數據資產化

關鍵產品介紹:

Dataphin 是阿里雲旗下智能數據構建與管理的數據中臺建設引擎。旨在基於數據中臺實踐中沉澱的核心方法論和技術體系,提供從數據採,建,管,用的全鏈路、一站式的大數據能力,以助力企業打造標準統1、融會貫通、資產化、服務化、閉環自優化的智能數據體系。

Dataphin的核心價值在於規範數據定義,用規範化、標準化的方式生產數據,提升數據開發的效率。

數據中臺把面向全員開放數據,支撐業務的數據化運營做爲目標。數據中臺便捷的數據構建和業務價值視角的設計思路是與傳統數據倉庫的最大的不一樣。阿里巴巴經過數據爲人人,基層小二纔是數據主要使用者的理念,來進行數據加工和開發,讓一線員工有數據可看,有數據支持運營決策,有數據作業務指導。

OneData是基於阿里巴巴數據技術團隊多年經驗沉澱出來的方法論,核心是數據公共層的建設,Dataphin是方法論固化到產品的一個形態,它幫助阿里巴巴經濟體在業務轉型的過程當中推進業務變革,實現業務價值。企業一樣可利用這些成功經驗和工具來提升數據效率,支持他們的經營和可持續性戰略。

OneData核心是數據公共層的建設。 阿里巴巴正是經過底層服務和敏捷開發的創新來賦能其龐大的客戶羣,爲客戶提供成熟的方法論和開箱即用的工具,幫助企業實現業務創新。在以創造業務價值爲導向的今天,咱們看到數據中臺能推進企業數據價值利益鏈的傳導。

在阿里巴巴經濟體內,數百種數據應用服務於淘寶、天貓、優酷、飛豬、支付寶等各個業務部門。經濟體外,生意參謀、品牌數據銀行、全域消費者運營平臺Quick Audience等數據應用幫助外部的商家在阿里巴巴經濟體內實現業務價值。數據及數據工具將愈來愈多的實現人、貨、場的鏈接和協做。

數據中臺概念下,數據資產除了基礎的存儲容量、計算資源外,還須要根據企業的組織架構或開發形態來構建本身數據資產管理平臺,用以洞察企業數據健康情況。在阿里巴巴企業內部也有資產平臺提供數據健康狀態信息,可爲下一財年的系統擴容提供數據依據。Dataphin內置的數據資產管理模塊可以體現開發者視角下的數據資產基礎情況。

企業須要進行數智化轉型,才能更有效地管理數據,更便捷地使用數據。阿里巴巴數據技術及產品部也認識到了數據處理方式必須有所改變,才能知足企業對數據開發效率,數據賦能業務產生價值和數據指導企業運營管理的需求,至此數據中臺理念孕育而生。它幫助阿里巴巴集團在以後幾年的激烈競爭中脫穎而出,並繼續幫助企業過渡到將來的競爭。這場趨勢之戰的背後是商業主導權的競爭。

數據中臺應用現狀

1、通用行業數據中臺建設場景

傳統企業對數據中臺的期待更多的是在業務運營和管理支撐這兩方面。開箱即用的工具能實現企業高效的數據產出和數據資產的管理。在數據中臺建設的場景設計階段,會對傳統企業進行深刻的業務調研,抽絲剝繭地提煉業務場景,將用戶最爲關心的業務洞察視角經過BI數據分析報表可視化的展示在人們面前,輔佐決策者作出科學判斷。

數據中臺的業務場景設計階段衍生出數千個派生指標,這些派生指標具備時間限定細、指標定義清晰無二義性,指標間組合條件多等特徵。Dataphin能快速實現數據加工和開發,圖形化設計下降數據中臺開發和設計的門檻,並從數倉規劃、數據集成、規範建模、通用開發IDE、運維調度到數據服務一站式快速達成傳統企業數據建模和數據開發的目標。

數據中臺內匯聚的數據資產就像一座「金礦」,對企業來說,數據中臺必需要解決數據如何管理,如何使用的問題。經過中心化的數據資產管理能夠方便的對資產使用及其價值進行全面的評估,構建數據應用的全鏈路追蹤體系,對數據成本、業務收益作到清晰、透明、可評估。傳統企業因爲業務系統多元、設計獨立等緣由致使造成數據煙囪式開發的局面。經過對數據資產的集中管理能夠實現企業全局數據資產情況全掌握,縱向部門、橫向層級的運營情況透明呈現,爲科學的數據化決策打下堅實的數據基礎。

某傳統企業客戶,他們在全國擁有大量零售商和門店,營銷費用居高不下,因爲經營數據都在門店和各個子系統中,總部難以發現緣由。經過數據中臺的建設,將各個系統數據和門店營銷數據採集後,經過分析消費數據、積分積累和積分消耗數據,發現了異常行爲會員,他們在門店的消費集中在晚上10點之後,這段時間恰是門店關門的狀態,疑似羊毛黨的做弊行爲所致使。經過數據中臺的數據集中化管理,可對各事業部下屬門店的實際活動銷量進行監督。經過數據中臺定製化的「資產可視化門戶」幫助企業對自有數據資產進行有效管理。

做爲傳統企業表明某電信運營商、某航空公司通過10多年的數據倉庫建設,已經擁有一套數據分析平臺,但傳統的數據倉庫只側重數據開發,沒有場景設計和資產管理的理念,當有一個新的數據開發任務,每每須要開發人員從貼源數據作層層加工實現,不只耗時長並且存在定義不清晰的現象。而這些現象能夠經過使用Dataphin,引入標準的數據公共模型來解決。

「推動業務和數據中臺建設是航空公司今年八場硬仗之一,也是公司智能化轉型過程當中的關鍵性變革。過去,須要人工從不一樣系統採集、在各自電腦上跑幾十小時才能取得的數據,如今幾分鐘就能實現數據從「雲端」上輕鬆獲取,極大地提高了分析工做的效率和質量。」航空公司數據中臺項目負責人表述。

2、零售行業全域數據中臺營銷場景

新零售行業有着全新的業態銷售模式,商家經過門店、線上網店、直播平臺、品牌App、微信/支付寶小程序等各類渠道促銷商品。針對營銷形式多、渠道多的特色阿里巴巴推出了全域營銷解決方案,集合全域數據經過AIPL/RFM數據模型進行深度洞察,經過精準投放,提高營銷效率,實現業務價值。全域營銷解決方案是基於阿里巴巴生意參謀、品牌數據銀行、數據構建及管理平臺Dataphin、全域消費者運營平臺Quick Audience等一系列數據產品來實現的。

在全域營銷中最爲核心的是幫助用戶找到目標人羣,經過人羣預測模型和營銷投放爲商家帶來業務價值,所以全域營銷預測技術實施的前提是匯聚各個業態/渠道產生的數據,並以阿里巴巴OneData方法論去處理以實現全域的數字營銷,這一領域AI和算法平臺的計算能力有直接的場景應用和業務價值體現。經過模型建設和數據輸出使得商家對業務的運營情況、會員洞察、渠道和銷售管理、門店管理等業務數據有全盤的管控。經過數據分析,決策者能夠作出業務判斷,也能夠經過市場預測(predictive Marketing)模型爲全域營銷提供市場預測。

全域營銷解決方案是企業構建數據中臺後與阿里巴巴商業生態合做,取得業務價值的一個重要方式。由企業的數據中臺沉澱的價值數據與阿里巴巴商業生態體系以及其餘媒體渠道共建數字營銷,而且可迴流外部投放的數據,造成全鏈路數據閉環。

飛鶴乳業、良品鋪子、伽藍等新零售企業經過全域數據中臺建設,使用Dataphin對天貓店鋪、線下門店、小程序、自有網站等數據進行統一管理,構建統1、標準、高質量的數據,支撐數據決策和全域營銷投放,實現業務價值。正如客戶們所說:

「數據中臺可以解放數據基礎建設,讓咱們有更多的精力來思考如何運用數據來解決業務痛點、提高公司效率;那麼在對組織的能力要求方面,咱們也可以更偏向業務分析和架構的能力、數據模型算法能力、創新型應用產品設計和規劃能力的發展。」良品鋪子副總裁周世雄在接受採訪時候如是說道。

伽藍集團大數據中心總經理鍾衛在接受採訪中表述」咱們手中有金礦(消費者數據),但缺少開發的方法。數據中臺體現的數字化技術至關於新的生產力,可以驅動企業經過創建與之相配新生產關係,好比組織升級、生態協同而促進企業經營模式、商業模式上的突破,這種突破所帶來的改變是DNA級別的」。

數據中臺將來趨勢展望

1、數據中臺的實時計算趨勢

數據處理向準實時、實時趨勢方向發展。傳統的數倉設計限於技術體系沒法實現實時計算。而採用分佈式大數據技術不只能實現構建PB級別的數據中臺(歷史上把這類計算場景叫數據倉庫)並且還能將實時計算與歷史數據結合,實現流批一體開發。知足新一代數據中臺強調的數據時效性和分析能力。

阿里巴巴採用Blink(Flink開源版本)實時計算框架實現流批一體,Blink具備復瑣事件處理能力(Complex Event Process),還能爲不一樣需求和能力的開發者提供SQL/Table、實時流批數據處理、狀態事件驅動應用API等多種特性,應對不一樣數據開發的需求。

數據中臺的實時計算技術並非對原有的業務流程進行再造,而是經過實時數據流與數據倉庫指標結合的方式來實現更高效的業務分析。利用實時技術能夠快速進行BI分析和業務預警,如實時營銷策略、實時風控策略、實時反欺詐。這些場景均可以嵌入到實際的業務系統中。

阿里巴巴的新零售業務、 雙11購物狂歡節也運用流批一體,對營銷過程實時監控。

Dataphin產品在2018年開始就流批一體投入研發,在2019年末內部流計算產品成功遷移到Dataphin產品上。2020年Dataphin 發佈v2.7版本,開始支持阿里雲實時計算產品Flink,與阿里雲大數據計算服務Maxcompute結合,經過流批一體技術知足數據及時性需求。用戶能夠經過Dataphin產品實現營銷效果的實時反饋並與歷史數據放在同一維度分析和比較,給業務人員提供即時精準的數據用以實時決策。

2、數據中臺上層應用的移動終端化趨勢

BI洞察分析是數據中臺數據呈現的最重要的方式,現階段絕大部分的BI呈現都是PC端爲主,手機端爲輔。互聯網由PC端向移動終端發展的一個必然趨勢是數據數據應用也隨之移動終端化。這幾年,在數字化分析領域,多個BI廠商都發布了移動終端展示的配套產品,但並未在市場上大規模普及,究其緣由既有屏幕尺寸難統一等客觀問題,又有移動終端受衆場景個性化程度高的狀況,所以數據中臺的應用移動終端化必須適應終端的要求。

在數字BI領域,其終端化一定要考慮端上適配,更多的以數字指標看板的方式呈現,而不是像PC端同樣去突出豐富的呈現效果及歷史指標。其次是終端App與實時計算相結合,強調實時數據的分析能力,呈現的內容要具備時效性,更多的應用在業務流量、實時訂單與歷史訂單分析及預測的場景中。

現有的移動終端化難點除了須要在iOS和Android兩個系統上作App開發外,還面臨多個端呈現問題,釘釘微應用和微信小程序已經是企業除App外在數據BI終端化中的其餘選擇,但從技術層面上來講,純H5頁面開發面臨下載數據量大,使用體驗不佳,不能實現離線數據保持和瀏覽等問題,所以大多數移動終端應用依舊採用App方式實現。

因爲終端App的開發和運維成本高,PV/UV運營效率問題,因此什麼樣的數據和應用模式才能提升數據用戶的使用頻率是擺在企業管理者和產品經理面前一個現實問題。數據中臺大部分的分析數據是T+1的分析指標,對企業管理者有很重要的借鑑做用,但沒有小時和分鐘級別的使用頻率,所以App上呈現的數據應該以企業業務及營銷活動數據爲主,特別是多端的埋點採集數據、PV/UV數據,再結合數據歷史分析比較能更好的體現App BI的業務價值。

3、數據中臺的智能化發展趨勢

AI技術最爲重要的價值是能爲現實場景所用,好比人臉識別的一個典型應用場景是替代密碼實現手機登陸。構建數據中臺以後,企業用戶可積累豐富的指標數據,這些數據都是算法和AI依賴的基礎。數據中臺用戶比較廣泛的AI應用場景是銷量或流量預測,千人千面的推薦算法,營銷活動的預測等。這些都是對業務決策提供直接輔助的場景。

受到激烈的市場競爭壓力,企業都指望AI計算能在短期內幫助實現銷量增加或成本降低的效果。其實經過AI算法爲一線員工提供數據的便利性使用也是提升生產效率的一大途徑。阿里巴巴內部有這樣一款數據產品,員工能夠向它模糊提問,產品直接回復員工用戶所關心的指標數據,下降了數據查詢的門檻,方便一線員工的使用。

「人法地,地法天,天法道,道法天然」, 法是制約、管控,人以地爲行爲規範,地以天爲規範,天以道爲規範,道以天然爲規範。企業亦之,企業的運營依賴數據支撐,數據支撐依賴系統、系統依賴於數據中臺,數據中臺遵循數據處理的方法論和多端的呈現,所以數據處理的處理是數據中臺成功落地的一大關鍵所在。

 

原文連接

本文爲阿里雲原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索