數據中臺專欄(四):數據中臺設計與數據資產管理

本文做者:王立飛算法

袋鼠雲大數據解決方案專家。專一於雲計算、大數據、企業級技術架構(EA)等領域,在互聯網、零售、工業等行業有深刻的理解和豐富的從業經驗,曾帶領項目團隊完成中金易雲、貨幣網、固德威等企業級大數據項目交付,擅長行業大數據解決方案的諮詢與落地。數據庫

 

正文:架構

企業的發展,每每伴隨着業務更多元化,也必然會促進更多的業務數據產生,也爲企業實現業務數據化和數據業務化帶來了更多的可能性,但現實是不少企業依然採用傳統理念去建設大數據平臺,致使不僅僅業務系統是一個個煙囪,大數據平臺也是一個個垂直的數據中心,因此如何打通這些數據並將其按照一個統一的標準進行建設,以達到技術降本、應用提效、業務賦能的目標,是衆多企業面臨的問題。數據中臺就是爲解決這些問題而生。運維

數據中臺的內核包括兩方面:一個是應用數據的技術能力,另外一個是數據資產的管理。工具

 

Part 1性能

1、數據中臺設計大數據

數據中臺的概念由阿里巴巴首次提出,它是一個承接技術,引領業務,構建規範定義的、全域可鏈接萃取的、智慧的數據處理平臺,建設目標是爲了高效知足前臺數據分析和應用的需求。數據中臺是涵蓋了數據資產、數據治理、數據模型、垂直數據中心、全域數據中心、萃取數據中心、數據服務等多個層次的體系化建設方法。優化

 

(一)數據中臺建設方法論雲計算

(二)數據中臺建設內容架構設計

  1. 全域數據採集與引入
    以需求爲驅動,以數據多樣性的全域思想爲指導,採集與引入全業務(電商、零售、生產等)、多終端(PC、H五、APP等)、多形態(自身業務系統、三方購買、互聯網採集抓取)的數據。
     

  2. 標準規範數據架構與研發
    統一基礎層、公共中間層、百花齊放應用層的數據分層架構模式,經過數據指標結構化規範化的方式實現指標口徑統一。
     

  3. 鏈接與深度萃取數據價值
    造成以業務核心對象爲中心的鏈接和標籤體系,深度萃取數據價值。
     

  4. 統一數據資產管理
    構建元數據中心,經過資產分析、應用、優化、運營四方面對看清數據資產、下降數據管理成本、追蹤數據價值。
     

  5. 統一主題式服務
    經過構建服務元數據中心和數據服務查詢引擎,面向業務統一數據出口與數據查詢邏輯,屏蔽多數據源與多物理表。

(三)數據中臺設計方法

1. 數據模型層次設計

數據中臺將數據分爲操做數據層(ODS)、公共維度模型層(CDM)(其中公共維度模型層包括明細數據層(DWD)和彙總數據層(DWS))、應用數據層(ADS)。

      ODS層:

      把來源於其餘系統的數據幾乎無處理地存放在數據倉庫中。主要功能:

  • 數據同步:結構化數據增量或全量同步到數據計算平臺;

  • 結構化:非結構化(日誌)結構化處理並存儲到數據計算平臺;

  • 累積歷史、清洗:根據數據業務需求及稽覈和審計要求保存歷史數據、數據清洗;

CDM層:

存放明細事實數據、維表數據及公共指標彙總數據。CDM層又細分爲DWD層和DWS層,分別是明細寬表層和公共彙總數據層,採起維度模型方法基礎,更多采用一些維度退化手法,減小事實表和維度表的關聯,容易維度到事實表強化明細事實表的易用性;同時在彙總數據層,增強指標的維度退化,採起更多寬表化的手段構建公共指標數據層,提高公共指標的複用性,減小重複的加工。

  • 組合相關和類似數據:採用明細寬表,複用關聯計算,減小數據掃描。

  • 公共指標統一加工:基於OneData體系構建命名規範、口徑一致和算法統一的統計指標;創建邏輯彙總寬表。

  • 創建一致性維度:創建一致的數據分析維表,下降數據計算口徑不統一的風險。

ADS層:
存放數據產品個性化的統計指標數據,根據CDM層和ODS層加工生成。

  • 個性化指標加工:不公用性、複雜性(指數型、比值型、排名型等)

  • 基於應用的數據組裝:大寬表集市、橫錶轉縱表、趨勢指標串。

設計原則

2.數據規範定義設計

規範定義是指以維度建模做爲理論基礎,構建總線矩陣,劃分和定義數據域、業務過程、維度、度量/原子指標、修飾類型、修飾詞、時間週期、衍生指標等。通常指標組成體系能夠劃分爲:原子指標、衍生指標、修飾類型、修飾詞、時間週期。

如:支付訂單金額+最近7天+淘寶=最近7天淘寶的成交

 

表命名規範:

ODS:ods_[業務庫名]_{業務庫原始表名}[_delta]

DWD:dwd_{主題縮寫}_{業務過程縮寫}[_自定義標籤縮寫]_{單分區增量全量標識}

DWS:dws_{數據域縮寫}[_自定義標籤縮寫]_{刷新週期標識}

ADS:ads_ [_業務應用縮寫][_維度][_自定義標籤縮寫]_{刷新週期標識}

DIM:dim_{維度定義}

 

3. 數據模型設計
維度建模是專門用於分析型數據庫、數據倉庫、數據集市建模的方法,維度建模以分析決策的需求出發構建模型,構建的數據模型爲分析需求服務,所以它重點解決用戶如何更快速完成分析需求,同時還有較好的大規模複雜查詢的響應性能。

維度表
表示對分析主題所屬類型的描述。好比"昨天早上張三在淘寶花費200元購買了一個皮包"。那麼以購買爲主題進行分析,可從這段信息中提取三個維度:時間維度(昨天早上),地點維度(淘寶), 商品維度(皮包)。一般來講維度表信息比較固定,且數據量小。


事實表
表示對分析主題的度量。好比上面那個例子中,200元就是事實信息。事實表包含了與各維度表相關聯的外碼,並經過JOIN方式與維度表關聯。事實表的度量一般是數值類型,且記錄數會不斷增長,表規模迅速增加。

維度建模常見的由星型模型、雪花模型和星座模型三種,數據中臺設計通常採用星型模型。

 

Part 2

2、數據資產管理

你們已經意識到數據是企業最寶貴的資產了,前面講的都是企業數據建設的方法,那企業如何把本身的數據資產建好、管好和用好?這不只僅須要方法論和管理制度,更須要的一個可視化的數據管理工具,實現複雜的數據資產運維簡單化,前面的數據中臺系列文章開篇就曾介紹袋鼠雲數棧大數據產品,它是一款高效的大數據實時/離線任務開發、任務調度和數據管理工具,它從如下三個方面實現數據資產的管理。

 

1. 數據地圖管理

數據地圖是對整個數據中臺內的數據進行統一查詢、管理的「地圖」,數據地圖主要面向數據開發者,匯聚用戶全部數據信息,經過元數據信息收集、數據血緣探查、數據權限申請受權等手段,幫助數據中心專有云完成數據信息的收集和管理,解決"有哪些數據可用"、"到哪裏能夠找到數據"的難題,而且提高數據資源的利用率。
 

2. 數據模型管理

數據模型管理,主要是爲解決架構設計和數據開發的不一致性,是爲了約束平臺使用者的表名、字段名的規範性,架構師從工具層合理的進行模型分層和統一開發規範,包括2部分,一個是規則配置,另外一個是對錶名、字段名的按期校驗。

 

規則配置:能夠配置表名必須由哪幾個元素組成,好比表名=數據倉庫所屬層級+表所屬主題+數據更新週期+增量/全量,按照這個規則,表名就會是

dws_sale_channel_day_full,這樣的話,這張表是作什麼的就一目瞭然了。

 

按期校驗:能夠對錶名、字段名作按期校驗,告訴你哪些表、哪些字段是不符合要求的,這樣的話,平臺長期運營下去,依然會處於比較健康的狀態。

3. 數據質量管理

在實際生產中,數據計算任務沒有告警,但不表明數據就是正確的,好比源數據異常、代碼邏輯修改等緣由都會形成結果數據錯誤。數據質量就是保障數據正確性的工具,主要包括這麼幾部分:一是支持準確性校驗規則,二是支持雙表校驗,三是輸出校驗報告。

數據準確性規則配置:能夠配置針對表的、字段的校驗規則,好比這個表的數據量是否是波動很大,某個字段是否是有異常的值,這個字段的值會不會有不少空值。

雙表校驗配置:數據遷移、重要邏輯變動時須要保證數據的一致性,傳統方式採用人工編寫SQL的校驗方式,數棧·Valid提供自動化校驗功能,僅需頁面配置便可完成海量數據的一致性校驗。

輸出質量報告:支持字段級、表級校驗報告,具有歷史數據統計功能,輔助定位數據質量的問題根源會按期的自動執行校驗規則,輸出校驗報告。

 

 總結

數據時代帶來的挑戰不只僅是數據量的爆發式增加,更重要是如何管理好、治理好、利用好這些數據,顯然傳統的大數據建設方法論沒法知足需求。

若是把大數據建設工做好比蓋高樓的話,那麼大數據平臺開發和管理工具(數棧)就是打樁機、挖土機、推土機、塔吊...,過程當中嚴苛、繁瑣、體系的開發、治理、分析建設方法論(數據中臺)就是樓層規劃、戶型設計、房屋建造....,數據服務就是業主個性化的裝修。

袋鼠雲數據中臺建設方案就是集大數據平臺產品+建設方法論+數據服務+數據運營經驗的總體輸出。

 

下篇預告

數據中臺專欄第五篇,袋鼠雲CTO江楓將爲你們講述袋鼠雲數棧如何融入數據中臺理念,幫助企業藉助產品化的方式,構建數據共享能力中心。

相關文章
相關標籤/搜索