揭祕網易嚴選數據中臺的建設之道

導讀:數據中臺最先是阿里提出的,但真正火起來是 2018 年,咱們能感覺到行業文章談論數據中臺的愈來愈多。大量的互聯網、非互聯網公司都開始建設數據中臺。爲何不少公司開始建設數據中臺?儘管數據中臺的文章不少,可是一千人眼裏有一千個數據中臺,到底什麼是數據中臺?數據中臺包含什麼?android

2017 年開始,當網易嚴選有了必定量的數據,咱們就開始規劃建設咱們的數據中臺,目前咱們已經完成了數據中臺體系的搭建,我將根據咱們建設數據中臺的經驗和方法論試圖解答上面這些問題。ios

 

爲何你們開始建設數據中臺?web

2018 年開始,朋友圈裏講數據中臺的文章開始逐漸變多,固然拿着手機看世界並不必定看到真實的世界。我也跟各個行業的一些大公司的 CIO 交流,發現不少行業的大公司都開始組建大數據團隊,建設數據中臺。結合文章和交流獲取的信息,我切身感覺到宏觀經濟對技術的影響。2018 年開始經濟下行,生意很差作了,粗放的經營已經不行了,愈來愈多的企業想經過數據驅動來進行精細化的運營和數據化轉型。小程序

如上圖所示,企業須要數字化轉型,須要更多的觸點去跟本身的用戶 / 客戶創建聯繫,不少企業就須要作本身的公衆號、小程序 (各家的小程序) 甚至 app。咱們但願用戶更容易找到咱們的商品 / 服務,咱們就須要搜索。咱們但願用戶更多的瀏覽 / 使用咱們的商品 / 服務就須要推薦。咱們維護用戶 / 客戶的生命週期,根據生命週期採起不一樣的營銷動做,就須要 CRM。咱們須要拉來更多的新用戶,就須要投放廣告,爲了更好的投放效果,咱們須要建設咱們的 DMP。當咱們生意作大,咱們須要對抗黑產 (羊毛黨),讓咱們的優惠能讓真正的用戶享受,咱們須要風控。這一切都須要底層大數據的支持。緩存

企業須要精細化運營,就須要不斷的提高運營的頻次 (以下圖所示) 和粒度。咱們須要把運營的節奏提高到周級、天級甚至實時。咱們隨時隨地瞭解咱們企業經營情況,須要不斷的更精細 (細粒度) 的分析咱們的業務,快速作出業務決策。咱們就須要可以快速地構建大量的 BI 報表,在一些重要的節點 (大促) 時,甚至須要盯着數據大屏。若是咱們有能力,還能夠建設場景化的數據產品來支持業務的決策。這一切都須要底層大數據的支持。架構

如何快速地利用底層大數據的支持,讓咱們的數據化轉型、精細化運營可以高頻的迭代,這就須要咱們的數據中臺提供強有力的支持。app

這裏也提醒一點,當咱們須要大規模的數據應用時 (搜索 / 推薦 /BI 報表...),咱們才須要構建數據中臺。由於建設數據中臺的投入大。打個比方,當我一家人要吃飯,我本身買菜,在本身的廚房用普通的廚具本身作就行了,若是是富士康,幾萬幾十萬人吃飯,就須要建食材的加工配送中心 (類比數據中臺)。本質上是「需求規模量級的變化,致使解決方案的質變」。因此咱們看到的,基本是大公司在建設數據中臺。儘管大家可能如今不適合建設數據中臺,但數據中臺的思想你們均可以借鑑。工具

小結一下,當企業須要數據化轉型、精細化運營,進而產生大規模數據應用需求的時候,就須要建設數據中臺。性能

什麼是數據中臺?測試

這是一個千人千面的問題。咱們的定義是「數據中臺是高質量、高效賦能數據前臺的一系列數據系統和數據服務的組合」。由於規範最終是在系統和服務中落地的,因此定義中就沒有包含規範部分。數據中臺的核心職責是高效地賦能數據前臺爲業務提供價值。要想理解數據中臺先要理解數據前臺,上文說到的搜索、推薦、BI 報表、數據大屏等都屬於數據前臺。咱們來看下面網易嚴選數據體系的圖就更清楚數據中臺的定位了。

數據中臺的下層是數據平臺,數據平臺主要解決跟業務無關的問題,主要是大數據的存儲和計算問題。

數據中臺的上層就是數據前臺,主要包括 BI 報表、數據產品和業務系統。數據中臺首先賦能分析師經過 BI 報表的形式來驅動業務精細化運營。以下圖所示,基於數倉裏已經半加工好的數據,分析師使用嚴選有數敏捷 BI 平臺能夠快速的根據業務需求進行數據可視化和數據分析。嚴選有數如今每週的 UV 超過 800,天天報表瀏覽次數超過 12w,目前的圖表數超過 7W。對於一個事業部級的 BI 平臺,應該算是一個很是好的成績。這裏特別感謝下咱們的分析師團隊,她們的辛勤工做纔會有這樣的成績。

數據中臺還會賦能業務系統開發經過統一查詢服務 (主要是統一查詢服務和標籤服務) 來輔助業務過程當中的決策。基於數倉裏面加工好的數據模型,業務系統開發人員使用統一查詢服務獲取到的模型數據在業務系統中增長輔助決策功能。好比供應商系統須要對供應商進行評級,供應商評級須要供應商的商品銷售數據、評論數據、退貨數據、質量數據,供應商採購的交期數據等等。數倉會根據這些數據加工模型,供應商系統能夠經過統一查詢獲取模型在供應商系統中使用。在嚴選,統一查詢服務已經接入了 67 個應用、670 個模型、天天有 300w 的調用。

咱們本身作的數據產品(以下圖所示),基本會用到咱們數據中臺全部的能力支持,包括統一查詢服務、標籤服務、指標監控服務、數據產出服務等數據服務,也會使用嚴選有數建立 BI 報表掛載到數據產品中。

 

數據中臺包含什麼?

從上文的圖中,咱們已經初步瞭解了數據中臺包含了哪些系統和服務。歸納來講,數據中臺包含數倉體系、數據服務集和 BI 平臺。

 

 

數倉體系

數倉體系是數據中臺的核心,數據是新能源,是生產資料。數倉體系包含數倉和一系列的管理系統,用來管理數據,保證數據的完整、一致和準確。數倉體系的構成和關係,以下圖所示。數倉是數倉體系的核心,也是整個中臺的核心。數倉的開發和存儲,主要依賴網易猛獁數據平臺 (但願詳細瞭解的,能夠搜索網易猛獁)。

夸父 - 埋點管理系統和精衛 - 數據填報系統從供應側保障數據的完整性和質量。埋點數據因爲來源廣 (web 端、ios、android、小程序等)、鏈路長、格式 (日誌的 scheme 約束) 等問題,一直是數據質量的重災區。夸父 - 埋點管理系統提供了埋點的管理、埋點流程協同和埋點測試,提供了埋點日誌的 scheme,保障了埋點數據質量。精衛 - 數據填報系統提供數據導入數倉及導入時的驗證功能,提高數據的完整性。整個電商的業務過程很是多,全部業務過程都線上化的過程很是漫長。當咱們下游的數據應用須要某個業務過程的數據,而這個業務過程尚未線上化時,就能夠經過精衛 - 數據填報系統導入數據到數倉,下游就可使用這份數據。

倉頡 - 指標管理系統和燧人 - 指標地圖是從需求側提高數據 (指標) 的一致性。倉頡 - 指標管理系統顧名思義是管理指標定義,在提供指標統一管理的同時,提供了指標定義規範的約束。數據開發能夠根據指標定義裏的指標口徑來進行指標開發。燧人 - 指標地圖是提供給業務方查看當前的指標分類與指標定義。

數倉開發自己要解決的核心問題是質量和效率 (全部開發也都須要解決),不管是質量和效率都須要好的架構設計。北斗 - 數倉設計管理系統就是來完成數倉設計。數倉的開發本來老是很是的經驗化,不少知識都是存在數據開發的腦子裏。咱們經過北斗 - 數倉設計管理系統來推行數倉先設計再開發,經過北斗 - 數倉設計管理系統將數倉開發的經驗知識化、標準化、工具化。數據質量中心 (以下圖所示) 提供全鏈路的數據保障體系,提供任務監控、數據監控、應用監控、影響範圍評估和恢復的支撐。

數據服務集

數據服務主要是數據場景下的解決方案的沉澱。數據服務集極大的加速了數據應用開發效率。核心的數據服務是統一查詢服務和標籤服務,提供指標模型和標籤模型對數據應用系統 (業務系統和數據產品) 的統一配送。統一查詢服務核心提供錶轉接口和數據網關的功能。數倉管理的是數據模型表,經過統一查詢,數據應用系統就能夠經過接口的形式來訪問數據模型表。統一查詢服務是數據體系和數據應用系統之間的總網關,須要提供模型級限流、熔斷等網關功能。

BI 平臺

BI 平臺咱們用的是嚴選有數,也就是在網易有數在嚴選的版本。網易有數是一款敏捷 BI 平臺,在設計上經過以終爲始的設計理念和類 PPT 操做模式,在保障靈活性的基礎上,提供了極大的操做便利。想進一步瞭解的,能夠搜索網易有數。

在性能方面,咱們結合數據產出服務作的基於數據產出的緩存策略極大地提高了報表的性能。圖表首訪緩存命中率基本穩定在 100%,總體緩存命中率超過 80%。

數據中臺的內容很是長,本文很是歸納的從嚴選實踐介紹了數據中臺。總結一下:當企業須要數據化轉型、精細化運營,進而產生大規模數據應用需求的時候,就須要建設數據中臺。數據中臺是高質量、高效賦能數據前臺的一系列數據系統和數據服務的組合。數據中臺包含數倉體系、數據服務集和 BI 平臺。

相關文章
相關標籤/搜索