詳解阿里雲數據中臺,一篇文章全面瞭解大數據「網紅」

做者:譚虎、陳曉勇 [ 更多內容詳見數據中臺官網 https://dp.alibaba.com ]數據庫

一直想寫一篇關於數據中臺正面文章,如今有閒時作些總結,想充分詮釋一下DT內部人如何看待數據中臺。跨域

數據中臺的概念是最先由阿里巴巴首次提出,是爲了應對內部衆多業務部門變幻無窮的數據需求和高速時效性的要求而成長起來的,它既要知足業務部門平常性的多個業務前臺的數據需求,又要知足像雙十一,六一八這樣的業務高峯、應對大規模數據的線性可擴展問題、應對複雜活動場景業務系統的解耦問題,而在技術、組織架構等方面採起的一些變革。架構

數據中臺的定義併發

阿里巴巴數據中臺是阿里雲上實現數據智能的最佳實踐,它是由數據中臺方法論+組織+工具所組成,數據中臺方法論採用實現企業數據的全局規劃設計,經過前期的設計造成統一的數據標準、計算口徑,統一保障數據質量,面向數據分析場景構建數據模型,讓通用計算和數據能沉澱並能複用,提高計算效能;數據中臺的建設實施必須有能與之配合的組織,不只僅相應崗位的人員要配備齊全,並且組織架構建設也須要對應,有一個數據技術部門統籌企業的數字化轉型,數據賦能業務中造成業務模式,在推動數字化轉型中實現價值;數據中臺由一系列的工具和產品組成,阿里雲數據中臺以智能數據構建與管理Dataphin產品、商業智能QuickBI工具和企業參謀產品爲主體等一系列工具組成。框架

阿里雲在過去幾年中通過數十個實際項目沉澱造成實施標準化流程和方法論。阿里雲OneData數據中臺解決方案基於大數據存儲和計算平臺爲載體,以OneModel統一數據構建及管理方法論爲主幹,OneID核心商業要素資產化爲核心,實現全域連接、標籤萃取、立體畫像,以數據資產管理爲皮,數據應用服務爲枝葉的鬆耦性總體解決方案。其數據服務理念根植於心,強調業務模式,在推動數字化轉型中實現價值。分佈式

數據中臺的概念來自於阿里巴巴「大中臺,小前臺」業務戰略下的數據化實踐,它是關於「數據價值化和數據資產化」的一整套解決方案,內容包括數據中臺方法論,組織,數據產品三個方面。高併發

數據中臺建設成果主要體如今兩方面:一個是數據的技術能力,另外一個是數據的資產。今天阿里的各個業務都在共享同一套數據技術和資產。阿里內部爲這個統一化的數據體系命名爲「OneData」。Onedata體系包括OneModel,OneID,OneService3個方面,在OneData體系之下,不斷擴大的業務版圖內的各類業務數據,都將按統一的方式接入中臺系統,以後經過統一化的數據服務反哺業務。工具

以下圖所示:oop

數據中臺頂層設計大數據

數據中臺定位於計算後臺和業務前臺之間,其關鍵職能與核心價值是大數據以業務視角而非純技術視角出發,智能化構建數據、管理數據資產與提供數據調用、數據監控、數據分析與數據展示等多種服務。承技術啓業務,是建設智能數據和催生數據智能的引擎;而以數據中臺內核價值爲中段的數據中臺業務模式不是純數據、不是純技術、也不是純業務,它同時關注着與大數據能力相關的上下游,以大數據爲中軸線,基於技術而又深刻業務,它以數據產品+數據技術+方法論+場景實現的綜合性輸出,同時爲智能化數據、技術極致提高和數據智能化業務負責。

一方面專一於從業務視角,建設標準統1、融會貫通、資產化、服務化、閉環自優化的數據中臺智能數據體系,同時極致化追求技術上的降本提效。另外一方面,致力於智能數據與業務場景深度融合的業務數據化與數據業務化中的各種智能化價值創新。

數據中臺與傳統數據倉庫差別

數據倉庫已經經歷了40多年的發展,普遍應用於大型商業企業,幫助業務人員和高層人員作分析和決策,它起源於決策支持系統(decision support system),其展示形式更多以報表方式實現。所以數據倉庫是一個面向主題的、集成的、非易失性的,隨時間變化的用來支持管理人員決策的數據集合。

傳統的企業級數倉仍是以TD,Oracle,IBM/DB2等傳統數據庫爲主, 因爲受限於數據的處理能力,不多有EDW的數據容量超過1TB,所以不能對基礎數據進行跨域的處理(緣由是RMDBS對大數據量的關聯join處理耗時很是長),所以要對新的指標分析的時候須要從基礎數據從新生成彙總表,耗時耗力,使用方法上沒法實現跨數據集或數據域的處理。新一代的數據倉庫採用分佈式架構,通常基於MPP數據庫或大數據平臺實現數據分析,所以傳統的數據倉庫具備如下幾個特色:

業務主題性:傳統的數倉要求解決服務問題,好比對一個生產型企業來講公司的主題域是產品、訂單、銷售商、材料等,要解決應用問題多是庫存、銷售、銷售商等。其有業務是面向主題的。

系統集成性:在傳統數據倉庫中,集成是最重要的,因爲計算和存儲的成本緣由,其數據須要從不一樣的數據源抽取過來並集中,其數據的冗餘度須要儘量的下降,所以數據進入數據倉庫中須要進行轉化、格式化、從新排列和彙總等操做,其全部數據具備單一物理特性,都是結構化方式存在。在系統架構方面,也是以集中式存儲和計算方式存在,新一代的數倉採用分佈式計算,但軟件產品採用集中部署方式存在。

非易失性:數倉系統會記錄全部記錄,與業務系統相比,它不會對記錄進行變化操做(update和delete),它會保留全部記錄的變化,但受限於成本和計算能力考慮,數倉不會記錄全量明細數據,特別是日誌數據,所以大部分數倉平臺的數據容量在TB級別。

時間變化性:數據倉庫中每一個數據單元只是在某一時間是準確的,所以數據單元的準確性與時間相關,數據倉庫中的數據時間範圍5-10年。

系統一體化: 傳統數倉以系統總體設計爲特性,軟件平臺圍繞着數據庫或計算平臺以整套服務爲主,結合度縝密,對外服務也較單一。

傳統的數倉採用集

中式數據庫做爲數據和計算平臺,近10年來,新興企業採用分佈式數據庫和大數據技術實現OLAP類數倉建設,但其本質仍是基於一個總體來考慮的。

在系統和服務上數據中臺與傳數倉有不少明顯的區別,首先表如今服務對象方面,傳統的數倉只是知足領導數據決策的須要,所以更多的體如今報表輸出,使用者以小部分的業務人員和決策層爲主,新需求的開發週期以月甚至到年爲計。而數據中臺因爲起家於互聯網企業,其使用對象擴大到一線服務人員和商家企業,其業務需求更繁雜,很難用一套報表系統知足需求,所以催生出一個生態的數據服務。

其次是體系架構上,數據中臺是由多系統組成,除了計算平臺外,其方案由多個分佈式服務系統提供,知足不一樣業務需求和高併發和系統自動擴容需求,除了大數據存儲和計算平臺外,還包含數倉建設、工做臺開發IDE、任務調度、數據同步服務、對外統一數據服務、資產管理系統、實時流計算平臺和開發平臺、oneID計算和查詢模塊,敏捷BI報表開發等多個組件,經過多個維度組件組成一整套方案。

再則,在服務表現形式上數據中臺體現的更多樣化,數據中臺不只能提供報表基礎服務功能,並且爲了知足各個業務部門不一樣需求,會提供領導決策系統、行業分析、業務洞察、業務重塑,自助查詢等多個功能,知足從領導層、PD、業務人員、開發人員等各個層級的需求。

在繼承性方面,數據中臺採用傳統的數倉Kimball維度建模法,按照事實表,維表來構建數據中臺的數據模型。

數據中臺與數據湖區別

業界近3年對datalake說的比較多,是結合近10年來大數據理念興起的,首次由Dan Woods在2011年7月福布斯上的「Big Data Requires a Big, New Architecture」中提出,它提出CIO們應該考慮數據湖(「Data lake」)這個思惟方式來替代數據倉庫(「data warehouse」)的思惟,它的架構和理念是把原先不存儲的基礎數據也存儲起來,彙總各個數據源的數據方便之後的數據分析和查詢,所以數據湖是數據的彙集、加工爲目的數據資源池,可是數據湖只是解決了彙集問題,在數據加工方面因爲不可控制的需求變得異常繁重,因爲數據的繁雜和混亂引入數據治理讓數據的加工更是舉步維艱。

圖:數據湖採集的數據類型

傳統上數據湖中的數據會存儲原始數據,量大而且非結構化和半結構化的數據較多,須要有一個低成本分佈式存儲和計算架構來承載這些數據,屬於ODS層,缺少數據主題和加工能力,所以近期對數據湖上的數據治理項目和應用愈來愈多。

數據湖聚集了原始ODS數據,解決了傳統數倉基礎數據缺少的問題,做爲企業數倉平臺的補充,有其重要的意義,但數據湖的做用在於聚集企業的各個數據源,有一個存放和分析之地,在規劃中沒有一個總體的數據資產規劃和管理職能,這會致使其功能薄弱性,不能承擔總體的數據處理和管理之重,實際在一些大型企業,使用數據湖其數據陷阱就會立刻出現,業務人員的需求須要DBA或IT人員通過繁雜的處理步驟才能實現達到業務人員的數據分析目的,其會耗費開發人員的時間耗以周計,緣由之一是數據湖沒有一個數據構建和管理平臺去管理和計算這些數據,所以不講治理的雜亂無章的數據看似能提高數據獲取,數據分析的效率,實際上並不能承擔企業智能化的使命。

企業數據智能須要解決企業數據智能所面臨的諸多問題,企業數據智能須要解決數據的快速計算和結果產出;須要對企業數據資產有總體規劃和掌控;須要有一個好的方法論處理業務邏輯繁雜的統計;須要有一個好的構建和管理平臺面向業務使用方和開發使用方...這些都是數據湖所不能解決的問題。

數據中臺是由阿里巴巴在2015年在內部技術演進和組織優化中提出中臺戰略中提到的,數據湖自己的缺陷正是數據中臺強項,兩者能夠起到方案補充的做用,在現有技術框架中數據中臺能夠基於Hadoop數據湖平臺做爲數據存儲和計算載體,實現數據的加工和處理,數據中臺更多實現數據的管理,強調利用數據的能力,強調數據開發和高效的使用,數據中臺的數據資產管理能夠對數據湖中的數據按照數據域方式進行管理並結合業務的邏輯實現整個數據模型的加工和開發。

數據中臺與數據域相比,數據中臺強調方法論,組織和工具的建設。很是強調數據賦能業務,衍生出不少的數據業務產品。好比在阿里面向商家的生意參謀,面向人物屬性的標籤服務、面向行業小二的行業洞察…這些都極大的擴展了數據價值,其次數據中臺按分析的原子指標和派生指標方式作計算並存儲在Maxcompute平臺上,若有及時查詢要求會同步分析結果數據給MPP或其餘DB。這塊在數據頂層設計,全域資產、統一技術、產品業務上與Datalke及EDW是不一樣的。

現有大數據平臺廠商和雲服務廠商推崇數據湖有其商業目的,AWS認爲「雲數據湖表明將來,能從數據中挖掘出更多價值」。AWS對數據湖的理解是基於同一存儲、對接各種引擎進行分析查詢工做,所以推崇Amazon S3來構建數據湖;微軟推崇「Azure Data lake」基於HDinsight(原先Hortonworks公司產品,現是Cloudera產品)上層使用hive,spark,U-SQL計算引擎實現計算和查詢;華爲推薦DAYU數據湖運營平臺,強調統一管理和功能的豐富性。這些解決方案很是強調存儲服務和想配套的硬件銷售。

最後說到底都是企業提供數據計算、存儲和應用的平臺,最終各類平臺的目的都是要更好地服務於業務。

數據中臺所面臨的調戰

隨着數據中臺理念的普及,各行各業逐步接受了這個概念,不少廠商經過招投標採購、自身投入等各類方式建設了數據中臺,但在建設和具體運營中發現了不少問題,諸如數據運營是否能產生效益,對業務是否有推進價值,取數是否快速敏捷等問題…

數據中臺建設是一個徐徐漸進的建設過程,數據積累和分析維度都有一個數據和知識積累,認知的過程,和業務系統的「交鑰匙」工程有本質不一樣,營銷,市場和供應鏈的數據是在不斷變化中,營銷活動,產品也在不斷髮展和更新中,所以,數據中臺建設是一個不停迭代和發展的過程,須要持續投入是數據中臺運營部門所面臨的最大的挑戰。

業務數據的分析需求會有很大變化,回顧互聯網或傳統產業的發展歷程,在2007年iPhone智能手機以一個全新的形式推向市場前,傳統的數據分析需求仍是停留在PC或線下數據的分析,而今天,幾乎全部的分析維度幾乎都是來自線上終端(手機)需求或由線上數據來推進線下運營的需求。而今天隨着5G和AI技術的發展,愈來愈多的IOT設備產生的數據開始支撐着數據分析場景,好比商場、飯店已經開始使用攝像頭等傳感器來收集遊客對商品或服務的喜愛,這些都觸動對數據中臺的分析需求,這2個小小例子說明數據中臺的分析需求是在不斷變化中,所以數據中臺建設也須要持續迭代和發展,而不是自我運行的,這須要開發人員在不斷迭代中找到事物發展的規律,總結造成數據服務應用,知足廣泛化的業務需求。在GPS傳感器集成到手機中前,人們沒法獲知運動中的人位置,經過定位傳感器衍生出位置服務,好比大衆點評中的餐飲家政等生活圈的服務,這些數據會催生出人新的位置標籤,生活圈等指標數據,這些對業務運營有很是大的幫助,由於有了這個信息,你不會再給一個偶爾由於差旅去商家消費的顧客再發送促銷信息,也不會給偶爾消費的人有促銷廣告,這會幫助你的營銷更有針對性,更精準。

傳統企業在數倉建設都有一個分析平臺,固化了不少分析指標,這些分析指標天天發生一些變化,爲決策層提供了決策支撐,但指標的更替和變化確以月和年計,這致使對新業務和事物的業務反饋不夠及時,所以面對這一挑戰須要有一個靈活的數據中臺加工機制來知足這些需求。這首先須要有一個組織來支撐這個運營目標,使得運營和開發團隊爲這個目標達成這個目標,在阿里巴巴內部數據技術及產品部門就是這個組織的典型表明,經過組織機制來推進運營,知足業務部門不間斷的數據需求,同時基於需求開創了一套方法論並開發了一系列的工具幫助業務部門達成這一業務目標。這須要數據中臺的開發團隊開發一套方便,便捷的自助取數工具來知足業務部門的需求。

誠然,在數據建設中還會碰到一些其餘潛在問題,諸如需求不明確,分析場景設計不合理,數據指標和分析思路不夠能解決用戶痛點等狀況,但這些均可以經過增長投入,特別是增強諮詢和調研的力度來解決這些問題。

尾聲 [ 更多內容詳見數據中臺官網https://dp.alibaba.com ]

數據中臺是不少傳統企業作數字化轉型的重點投入,這須要從戰略、方法論、工具、執行和組織層面作系統規劃、有序執行,阿里過去多年經歷了內部多年的建設沉澱出多個工具和數據產品,通過央視網、海底撈、飛鶴、聯華商超、南航等多個傳統行業落地項目的淬鍊得出實施的方法論,這些轉型先鋒爲中國企業的數字化轉型具備借鑑意義。

阿里巴巴數據中臺團隊,致力於輸出阿里雲數據智能的最佳實踐,助力每一個企業建設本身的數據中臺,進而共同實現新時代下的智能商業!

阿里巴巴數據中臺解決方案,核心產品:

· Dataphin,以阿里巴巴大數據核心方法論OneData爲內核驅動,提供一站式數據構建與管理能力;

· Quick BI,集阿里巴巴數據分析經驗沉澱,提供一站式數據分析與展示能力;

· Quick Audience,集阿里巴巴消費者洞察及營銷經驗,提供一站式人羣圈選、洞察及營銷投放能力,鏈接阿里巴巴商業,實現用戶增加。

歡迎志同道合者一塊兒成長!

做者:伴弋

原文連接:https://yq.aliyun.com/articles/720814?utm_content=g_1000083375

本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索