回顧一下,第一篇文章大白話 六問數據中臺!你想知道的都在這了!。把數據中臺是什麼?爲何?有什麼價值?說的明明白白。數據中臺是企業級能力複用平臺,目標是讓數據持續用起來,經過數據中臺提供的工具、方法和運行機制,把數據變爲一種服務能力,讓數據更方便地被業務所使用。前端
今天就來點實際乾貨,把企業真實數據平臺架構分享給您!相信看完這篇文章,你會真正對數據中臺有一個全景的認識與理解,從抽象過分到具體。無圖無真相,我趕忙po一張數據中臺整體架構圖:mysql
數據中臺是在底層存儲計算平臺與上層的數據應用之間的一整套體系,屏蔽掉底層存儲平臺的計算技術複雜性,下降對技術人才的需求,可讓數據的使用成本更低。若是用三句話來歸納數據中臺的組成架構,那麼必定是:算法
如今您已經知道了,數據中臺離不開這幾個模塊:數據匯聚、數據開發、資產管理、數據安全、數據服務。那麼趕忙跟上個人腳步潛入內部去一探究竟吧。sql
數據匯聚,首先必然要有數據來源,有了數據來源以後,須要肯定採集工具,有了採集工具以後你還要肯定存儲位置。數據庫
數據是數據中臺的核心,因此數據匯聚無疑是數據中臺的入口。企業中的數據來源極其多,但大都都離不開這幾個方面:數據庫,日誌,前端埋點,爬蟲系統等。編程
這些數據分散在不一樣的網絡環境和存儲平臺中,另外不一樣的項目組可能還要重複去收集一樣的數據,所以數據難以利用,難以複用、難以產生價值。數據匯聚就是使得各類異構網絡、異構數據源的數據,方便統一採集到數據中臺進行集中存儲,爲後續的加工建模作準備。後端
數據匯聚能夠是實時接入,好比實時消費mysql的binlog進行數據同步,也能夠是離線同步,好比使用sqoop離線同步mysql數據到hive。安全
數據匯聚通常用到的技術包括:微信
採集以後必然須要將數據落地,即存儲層,常見的有:網絡
因爲篇幅問題,本文不詳細說明。關於採集工具以及存儲層的選擇和使用、後續會有專門的文章介紹。請關注公衆號【胖滾豬學編程】,一個集顏值與才華爲一身的女程序媛,堅持原創,用漫畫形式讓編程so easy。
數據開發能夠理解爲數據匯聚和數據資產的一個橋樑。何爲數據資產?數據資產是有價值的數據。而數據匯聚是原始數據,業務人員通常是難以使用的。原始數據-->有價值的數據,是須要一個過程的。那麼就是讓數據開發模塊來完成這個過程。
數據開發是一整套數據加工及管控的工具,包括離線開發,智能調度,實時開發,人工智能等。
舉個例子,某公司想知道廣告投放的效益,而原始數據包括埋點數據,用戶註冊數據,用戶消費數據等,是否是須要整理一個sql,跑一個廣告效益報表呢?毫無疑問須要。那麼咱們就能夠經過智能調度平臺,定時跑出業務須要的數據;也能夠經過實時流計算,實時展現業務須要的數據。這都是屬於數據開發模塊的功能。
因爲篇幅問題,本文不詳細說明。後續文章有詳細說明離線計算、實時計算的選型、應用場景和落地方案。請關注公衆號【胖滾豬學編程】,一個集顏值與才華爲一身的女程序媛,堅持原創,用漫畫形式讓編程so easy。
數據開發模塊適合對象是數據開發、算法建模人員,提供離線、實時、算法開發工具以及任務的管理、代碼發佈、運維、監控、告警等一些列集成工具,方便使用,提高效率。他們能夠依賴於數據開發模塊提供的基礎功能,快速把數據加工成對業務有價值的形式,提供給業務使用。
有了數據匯聚、數據開發模塊,中臺已經具有傳統數倉平臺的基本能力,能夠作數據的匯聚以及各類數據開發,就能夠創建企業的數據資產體系。
這裏我有必要再次強調一遍:數據資產指的是有價值的數據。這個也正是資產管理模塊須要去作的事情。如何讓數據變的有價值?第一體如今數據自己上,好比須要保證數據的質量。第二體如今業務上,偏技術的數據體系業務人員是比較難理解的,所以資產管理須要用企業全員更好理解的方式,把企業的數據資產展示給企業全員(固然要考慮權限和安全管控)。
數據資產管理包括數據地圖、元數據管理、數據質量、數據血緣、數據生命週期等進行管理和展現,以一種更直觀的方式展示企業的數據資產,提高企業的數據意識。
如今你會有不少疑問,數據地圖是什麼?元數據管理是什麼?數據血緣又是什麼?這些都是很是核心的地方,別急,後續文章我會以公司真實落地方案和應用場景對每個模塊進行說明,先發幾張圖讓你對它們有一個初步的概念。
數據質量和安全在不少架構圖中歸屬於資產管理模塊,可是筆者認爲數據質量和安全應該是貫穿整個數據中臺的。數據匯聚和數據開發的時候顯然也應該考慮質量和安全問題,因此筆者傾向於將數據質量單獨拿出來做爲一個模塊。
咱們會遇到無處不在的數據質量問題,包括業務系統髒數據、數據不一致不許確等。影響數據使用和上層決策。
爲何會出現數據質量問題呢?大部分是以下幾個緣由
因爲這些緣由,會致使數據不符合如下"四性",所以存在數據質量問題:
而數據質量無疑是很是重要的一部分,就算你數據再多再快,不許也無用。所以數據質量管理平臺尤其重要。數據質量管理是支持多種異構數據源的質量校驗、通知、管理服務的一站式平臺。包括數據探查、對比、質量監控、SQL掃描和智能報警等功能。數據質量監控能夠全程監控數據加工流水線,根據質量規則及時發現問題,並經過報警通知負責人及時處理。
在實際生產中,可從如下幾個方面作好數據質量工做:
數據安全的重要性不用多說,若是你把用戶信息泄露了,嚴重會致使整個公司都倒閉。所以對於全鏈路的數據,都應該作好數據安全工做。好比應該把業務庫/日誌的敏感數據進行脫敏,爲身份證、銀行卡等經常使用的數據類型提供掩蓋脫敏策略。以及日誌審計等。
數據生命週期安全能夠分爲如下幾個部分:
前面利用數據匯聚、數據開發建設企業數據資產,利用數據管理展示企業的數據資產,可是並無發揮數據的價值。數據的價值體現必定是在業務層面、即數據服務體系。就是把數據變爲一種服務能力,經過數據服務讓數據參與到業務,激活整個數據中臺,數據服務體系是數據中臺存在的價值所在。
數據服務體系是基於公司自身的產品和業務的,好比以電商公司爲例,數據服務就包括了:精準營銷、用戶畫像、經營分析、可視化大屏等。
搭建企業級數據中臺以前,務必把數據中臺全景架構圖設計好,對每個模塊的定位、功能、做用作到心中有數。
筆者收集到10張高清數據中臺架構圖,包括阿里數據中臺全景圖、電商數據中臺全景圖等,對你理解數據中臺構建數據中臺具備重大價值!文章不便於一次發10張圖,請關注公衆號【胖滾豬學編程】回覆"數據中臺" 獲取。