華爲數據分類管理框架和經驗


咱們雲原生實驗室在這段時間一直從事聯邦學習的項目研發,聯邦學習解決的是機器學習中企業數據聯合使用的問題,所以咱們也很關注各種數據管理框架和技術。近期讀了一本關於數據管理的書:《華爲數據之道》,對企業管理和使用數據作了系統的總結,其中有很多的原理值得借鑑。在徵得出版社許可後,摘錄部分章節分享給你們,感興趣的讀者能夠點擊圖片購買圖書做參考。
數據庫

最近的暢銷書《華爲數據之道》對華爲的數字化轉型方法和經驗進行了系統性地披露。企業的數字化轉型,數據治理是關鍵,數據的分類管理又是數據治理的核心,本文將經過《華爲數據之道》這本書的部份內容來詳細看一看華爲的數據分類管理框架是如何搭建的,以及華爲在數據分類管理方面的實戰經驗。緩存

不一樣的企業或組織基於不一樣的目的,能夠從多個角度對數據進行分類,如結構化數據和非結構化數據、內部數據和外部數據、原始數據和衍生數據、明細數據和彙總數據等。華爲在業界的數據分類基礎上,結合自身多年的實踐,已造成完整的數據分類管理框架。華爲對數據進行分類的目的,是爲了針對不一樣特性的數據採起不一樣的管理策略,以期實現最大的投入產出比。安全

華爲的數據分類管理框架(基於特徵分類)

華爲根據數據特性及治理方法的不一樣對數據進行了分類定義:內部數據和外部數據、結構化數據和非結構化數據、元數據。其中,結構化數據又進一步劃分爲基礎數據、主數據、事務數據、報告數據、觀測數據和規則數據。華爲數據分類管理框架如圖1所示。架構

圖1 華爲數據分類管理框架框架

不一樣分類的數據,其治理方法有所不一樣。如基礎數據內容的變動一般會對現有流程、IT 系統產生影響,所以基礎數據的管理重點在於變動管理和統一標準管控。主數據的錯誤可能會致使成百上千的事務數據錯誤,所以主數據的管理重點是確保同源多用、重點進行數據內容的校驗等。運維


結構化數據管理(以統一語言爲核心)

結構化數據包括基礎數據、主數據、事務數據、報告數據、觀測數據、規則數據。結構化數據的共同特色是以信息架構爲基礎,創建統一的數據資產目錄、數據標準與模型。下面將重點介紹六類結構化數據的治理方法。機器學習

1.基礎數據治理函數

基礎數據用於對其餘數據進行分類,在業界也稱做參考數據。基礎數據一般是靜態的(如國家、幣種),通常在業務事件發生以前就已經預先定義。它的可選值數量有限,能夠用做業務或IT 的開關和判斷條件。當基礎數據的取值發生變化的時候,一般須要對流程和 IT 系統進行分析和修改,以知足業務需求。所以, 基礎數據的管理重點在於變動管理和統一標準管控。工具

基礎數據在支撐場景分流、流程自動化、提高分析質量方面起着關鍵做用,治理基礎數據的價值如圖2所示。性能

圖2 基礎數據治理的價值

所以,有效地管理基礎數據對企業來講能夠產生巨大的收益。華爲創建了一個完整的基礎數據管理框架(如圖3所示), 經過明確各方的管理責任、發佈相關的流程和規範以及創建基礎數據管理平臺等來確保基礎數據的有效管理。

圖3 基礎數據治理框架

2.主數據治理

主數據是參與業務事件的主體或資源,是具備高業務價值的、跨流程和跨系統重複使用的數據。主數據與基礎數據有必定的類似性,都是在業務事件發生以前預先定義;但又與基礎數據不一樣,主數據的取值不受限於預先定義的數據範圍,並且主數據的記錄的增長和減小通常不會影響流程和 IT 系統的變化。可是, 主數據的錯誤可能致使成百上千的事務數據錯誤,所以主數據最重要的管理要求是確保同源多用和重點進行數據內容的校驗。華爲的主數據管理策略如圖4所示。

圖4 主數據治理策略

華爲的主數據範圍包括客戶、產品、供應商、組織、人員主題,每一個主數據都有相應的架構、流程及管控組織來負責管理。

鑑於主數據管理的重要性,對於每一個重要的主數據,都會發布相應的管理規範,數據管家依據數據質量標準按期進行數據質量的度量與改進。

同時,對於主數據的集成消費按照以下管理框架進行管理。

●數據消費層:數據消費層包括全部消費數據的 IT 產品團隊,負責提出數據集成需求和集成接口實施。

圖 5 主數據治理框架

●主數據服務實施層:負責主數據集成解決方案的落地, 包括數據服務的 IT 實施和數據服務的配置管理。

●主數據服務設計層:爲須要集成主數據的 IT 產品團隊提供諮詢和方案服務,負責受理主數據集成需求,制定主數據集成解決方案,維護主數據的通用數據模型。

●管控層:管控層由信息架構專家組擔任,負責主數據規則的制定與發佈,以及主數據集成爭議或例外的決策。

3.事務數據治理

事務數據在業務和流程中產生,是業務事件的記錄,其自己就是業務運做的一部分。事務數據是具備較強時效性的一次性業務事件,一般在事件結束後再也不更新。

事務數據會調用主數據和基礎數據。以客戶框架合同爲例, 核心屬性有 32 個,其中調用基礎數據和主數據 24 個,佔 75% ;客戶框架合同自己特有的屬性 8 個,佔 25%。同時,框架合同也引用了機會點的編碼和投標項目的編碼等事務數據的信息。

所以,事務數據的治理重點就是管理好事務數據對主數據和基礎數據的調用,以及事務數據之間的關聯關係,確保上下游信息傳遞順暢。在事務數據的信息架構中需明確哪些屬性是引用其餘業務對象的,哪些是其自身特有的。對於引用的基礎數據和主數據,要儘量調用而不是從新建立。

4.報告數據治理

報告數據是指對數據進行處理加工後,用做業務決策依據的數據。它用於支持報告和報表的生成。

用於報告和報表的數據能夠分爲以下幾種。

●用於報表項數據生成的事實表、指標數據、維度。

●用於報表項統計和計算的統計函數、趨勢函數及報告規則。

●用於報表和報告展現的序列關係數據。

●用於報表項描述的主數據、基礎數據、事務數據、觀測數據。

●用於對報告進行補充說明的非結構化數據。

報告數據涵蓋的範圍較廣,如主數據、基礎數據等,這些數據類別自己已經有相應的管理機制和規範,這裏咱們重點對部分新的細分數據類型進行說明。

1)事實表:從業務活動或者事件中提煉出來的性能度量。其特色爲:

●每一個事實表由顆粒度屬性、維度屬性、事務描述屬性、度量屬性組成;

●事實表能夠分爲基於明細構建的事實表和基於明細作過匯聚的事實表。

2)維度:用於觀察和分析業務數據的視角,支持對數據進行匯聚、鑽取、切片分析。其特色爲:

●維度的數據通常來源於基礎數據和主數據;

●維度的數據通常用於分析視角的分類;

●維度的數據通常有層級關係,能夠向下鑽取和向上聚合造成新的維度。

3)統計型函數:與指標高度相關,是對指標數量特徵進一步的數學統計,例如均值、中位數、總和、方差等。其特色爲:

●一般反映某一維度下指標的聚合狀況、離散狀況等特徵;

●其計算數值在報告中一般呈現爲圖表中的參考線。

4)趨勢型函數:反映指標在時間維度上變化狀況的統計方式,例如同比、環比、定基比等。其特色爲:

●一般將當期值與歷史某時點值進行比較;

●調用時,須要收集指標的歷史表現數據;

●其計算數值在報告中一般呈現爲圖表中的趨勢線。

5)報告規則數據:一種描述業務決策或過程的陳述,一般是基於某些約束下產生的結論或須要採起的某種措施。其特色爲:

●將業務邏輯經過函數運算體現,一般一個規則包含多個運算和判斷條件;

●規則的計算結果通常不直接輸出,須要基於計算結果翻譯成業務語言後輸出;

●規則一般與參數表密切相關。

6)序列關係數據:反映報告中指標及其餘數據序列關係的數據。

5.觀測數據治理

觀測數據是經過觀測工具獲取的數據,觀測對象通常爲人、事、物、環境。

相比傳統數據,觀測數據一般數據量較大且是過程性的,由機器自動採集生成。不一樣感知方式獲取的觀測數據,其數據資產管理要素不一樣。

觀測數據的感知方式可分爲軟感知和硬感知。軟感知是使用軟件或者各類技術進行數據收集,收集的對象存在於數字世界, 一般不依賴於物理設備,通常是自動運行的程序或腳本;硬感知是利用設備或裝置進行數據收集,收集的對象爲物理世界中的物理實體,或者是以物理實體爲載體的信息,其數據的感知過程是數據從物理世界向數字世界的轉化過程。

觀測數據的特徵有以下幾點:

1)觀測數據一般數據量較大且是過程性的,主要用做監控分析。例如,視頻監控器產生的視頻數據、操做系統產生的日誌記錄數據等。

圖6  觀測數據管理模型

觀測工具的元數據能夠做爲數據資產管理:軟感知(埋點、日誌收集、爬蟲)觀測工具抽象成業務對象,由 IT 部門擔任數據 Owner 進行統一管理;硬感知觀測工具做爲資源類數據,也建議做爲業務對象由相應的領域擔任數據 Owner 進行管理。

原則上,觀測對象要定義成業務對象進行管理,這是觀測數據管理的前提條件。觀測數據須要記錄觀測工具、觀測對象。針對不一樣感知方式獲取的觀測數據,其資產管理方案也不盡相同。例如,以用戶界面瀏覽記錄爲例,若是是對銷售機會點的查詢訪問觀測,應當歸屬到相應業務領域;若是是對頁面性能、頁面 UV、PV 的觀測, 應當歸屬到 IT 部門。

6.規則數據治理

在業務規則管理方面,華爲常常面對「各類業務場景業務規則不一樣,記不住,找不到」「大量規則在政策、流程等文件中承載,難以遵照」「各國規則均不一樣,IT 可否一國一策、快速上線」等問題。

規則數據是結構化描述業務規則變量(通常爲決策表、關聯關係表、評分卡等形式)的數據,是實現業務規則的核心數據, 如業務中廣泛存在的基線數據。

規則數據主要有如下特徵:

1)規則數據不可實例化;

2)規則數據包含判斷條件和決策結果兩部分信息,區別於描述事物分類信息的基礎數據;

3)規則數據的結構在縱向(列)、橫向(行)兩個維度上相對穩定,變化形式多爲內容刷新;

4)規則數據的變動對業務活動的影響是大範圍的。   

其基本原則爲:       

1)規則數據的管理是爲了支撐業務規則的結構化、信息化、數字化,目標是實現規則的可配置、可視化、可追溯。

2)不一樣於標準化的信息架構管理,規則數據的管理具備輕量化、分級的特色。重要的、調用量大、變更頻繁的業務規則須要經過規則數據管理,使其從代碼中解耦,進行資產註冊;使用普遍的、有分析需求的規則數據須要經過註冊入湖,實現共享和複用。

3)業務規則在架構層次上與流程中的業務活動相關聯,是業務活動的指導和依據,業務活動的結果經過該業務活動的相關業務對象的屬性來記錄。業務規則經過業務活動對業務事實、業務行爲進行限制,業務人員能夠根據業務規則判斷業務狀況,採起具體行動。

4)業務規則包含規則變量和變量之間的關係,規則數據主要描述規則的變量部分,是支撐業務規則的核心數據(如圖7 所示)。

圖7 業務規則與規則數據之間的關係

此外,運行規則所須要的輸入數據、輸出數據,包括動態數據庫訪問對象、內存表緩存、Excel、XML 處理類等,主要起支撐做用,不在規則數據的範疇。

規則數據必須有惟一的數據 Owner,其負責開展規則數據的信息架構建設與維護、數據質量的監控與保障、數據服務建設、數據安全受權與定密等工做。相應的數據管家支持數據 Owner 對所管轄的業務中的規則數據進行治理,包括建設和維護信息架構、確保架構落地聽從、例行監控數據質量等。

規則數據的元數據要記錄與業務規則的關係(規則數據定義前應先完成業務規則的識別和定義)。一個業務規則能夠包含零個、一個或多個規則數據,一個規則數據在信息架構上對應一個邏輯數據實體,在物理實現上通常對應一個物理表。規則數據要聽從信息架構資產管理要求(包括明確規則數據的 Owner、制定數據標準、明確數據源等),按照信息安全要求定密,以方便規則數據的管理、共享和分析。

非結構化數據管理(以特徵提取爲核心)

隨着業務對大數據分析的需求日益增加,非結構化數據的管理逐漸成爲數據管理的重要組成部分。非結構化數據包括無格式文本、各種格式文檔、圖像、音頻、視頻等多種異構的格式文件, 較之結構化數據,其更難標準化和理解,所以在存儲、檢索以及消費使用時須要智能化的 IT 技術與之匹配。華爲的非結構化數據包括文檔(郵件、Excel、Word、PPT)、圖片、音頻、視頻等。

相較於結構化數據,非結構化元數據管理除了須要管理文件對象的標題、格式、Owner 等基本特徵和定義外,還需對數據內容的客觀理解進行管理,如標籤、類似性檢索、類似性鏈接等, 以便於用戶搜索和消費使用。所以,非結構化數據的治理核心是對其基本特徵與內容進行提取,並經過元數據落地來開展的。非結構化數據的管理模型如圖8 所示。

圖8 非結構化數據管理模型

非結構化數據的元數據能夠分爲基本特徵類(客觀)和內容加強類(主觀)兩類。

1)基本特徵類:參考都柏林十五個核心元數據,實現對非結構化數據對象的規範化定義,如標題、格式、來源等。

2)內容加強類:基於非結構化數據內容的上下文語境,解析目標文件對象的數據內容,加深對目標對象的客觀理解,如標籤、類似性檢索、類似性鏈接等。

非結構化數據的元數據管理採用統分統管的原則,即基本特徵類屬性由公司進行統一管理,內容加強類屬性由相關承擔數據分析工做的項目組自行設計,但其分析結果都應由公司元數據管理平臺自動採集後進行統一存儲。

元數據管理平臺經過「基本特徵類元數據流」和「內容加強類元數據流」兩條線來實現對非結構化數據的元數據管理和消費使用。

1)基本特徵類元數據流

元數據管理平臺基於收集到的各種非結構化數據源信息,自動完成基礎特徵類元數據的採集工做,按照管理規範和要求經過標準化、整合後存儲在元數據管理平臺中,並在完成元數據過濾、排序後將結果在元數據報告中進行可視化展現,以供用戶消費使用。

2)內容加強類元數據流

基於元數據管理平臺中基本特徵類元數據的信息,各數據分析項目組解析目標非結構化對象的數據內容,並將分析結果經過元數據採集、元數據標準化 & 整合後統一存放在元數據管理平臺中,以供用戶一併消費使用,加強用戶體驗。


外部數據管理(以確保合規聽從爲核心)

外部數據是指華爲公司引入的外部組織或者我的擁有處置權利的數據,如供應商資質證實、消費者洞察報告等。外部數據治理的出發點是合規聽從優先,與內部數據治理的目的不一樣。

外部數據的治理主要遵循如下原則。

1)合規優先原則:聽從法律法規、採購合同、客戶受權、公司信息安全與公司隱私保護政策等相關規定。

2)責任明確原則:全部引入的外部數據都要有明確的管理責任主體,承擔數據引入方式、數據安全要求、數據隱私要求、數據共享範圍、數據使用受權、數據質量監管、數據退出銷燬等責任。

3)有效流動原則:使用方優先使用公司已有數據資產,避免重複採購、重複建設。

4)可審計、可追溯原則:控制訪問權限,留存訪問日誌, 作到外部數據使用有記錄、可審計、可追溯。

5)受控審批原則:在受權範圍內,外部數據管理責任主體應合理審批使用方的數據獲取要求。

在以上原則指導下,咱們要求全部採購的外部數據要註冊, 在合規的前提下鼓勵數據共享,避免重複採購。其餘方式引入的外部數據,由管理責任主體決定登記方式。根據法律條款和受權範圍,外部數據管理責任主體有權決定外部數據是否入數據湖, 若是須要入數據湖,必須聽從數據湖建設相應的流程和規範。同時,外部數據管理責任主體有義務告知使用方合規使用外部數據, 對於不合規的使用場景,不予受權;數據使用方要聽從外部數據管理責任主體的要求,對不聽從要求所引發的後果承擔責任。

元數據管理(做用於數據價值流)

不管結構化數據,仍是非結構化數據,或者外部數據,最終都會經過元數據治理落地。華爲將元數據治理貫穿整個數據價值流,覆蓋從數據產生、匯聚、加工到消費的全生命週期。

1.元數據治理的痛點與挑戰

華爲在進行元數據治理之前,遇到的元數據問題主要表現爲數據找不到、讀不懂、不可信,數據分析師們每每會陷入數據沼澤中。元數據管理的痛點如圖9 所示。

圖9 元數據管理痛點

爲解決以上痛點,華爲創建了公司級的元數據管理機制。制定了統一的元數據管理方法、機制和平臺,拉通業務語言和機器語言。確保數據「入湖有依據,出湖可檢索」成爲華爲元數據管理的使命與目標。基於高質量的元數據,經過數據地圖就能在企業內部實現方便的數據搜索。

元數據是描述數據的數據,用於打破業務和 IT 之間的語言障礙,幫助業務更好地理解數據。元數據一般分爲業務、技術和操做三類。

●業務元數據:用戶訪問數據時瞭解業務含義的途徑,包括資產目錄、Owner、數據密級等。

●技術元數據:實施人員開發系統時使用的數據,包括物理模型的表與字段、ETL 規則、集成關係等。

●操做元數據:數據處理日誌及運營狀況數據,包括調度頻度、訪問記錄等。

在企業的數字化運營中,元數據做用於整個價值流,在從數據源到數據消費的五個環節中都能充分體現元數據管理的價值。

●數據消費側:元數據能支持企業指標、報表的動態構建。

●數據服務側:元數據支持數據服務的統一管理和運營, 並實現利用元數據驅動 IT 敏捷開發。

●數據主題側:元數據統一管理分析模型,敏捷響應井噴式增加的數據分析需求,支持數據增值、數據變現。

●數據湖側:元數據能實現暗數據的透明化,加強數據活性,並能解決數據治理與 IT 落地脫節的問題。

●數據源側:元數據支撐業務管理規則有效落地,保障數據內容合格、合規。

2.元數據管理架構及策略

元數據管理架構包括產生元數據、採集元數據、註冊元數據和運維元數據。

●產生元數據:制定元數據管理相關流程與規範的落地方案,在 IT 產品開發過程當中實現業務元數據與技術元數據的鏈接。

●採集元數據:經過統一的元模型從各種 IT 系統中自動採集元數據。

●註冊元數據:基於增量與存量兩種場景,制定元數據註冊方法,完成底座元數據註冊工做。

●運維元數據:打造公司元數據中心,管理元數據產生、採集、註冊的全過程,實現元數據運維。

●元數據管理方案:經過制定元數據標準、規範、平臺與管控機制,創建企業級元數據管理體系,並推進其在公司各領域落地,支撐數據底座建設與數字化運營。

華爲元數據管理總體方案如圖10所示。

圖10 華爲元數據管理總體方案

華爲通過多年實踐,已經創建了相對完整的數據分類管理框架,爲數據治理奠基了基礎。隨着數字化轉型的深刻開展,尤爲是面向將來海量的非結構化數據、IoT 場景的觀測數據、外部合規日趨嚴格的外部數據等,華爲將不斷豐富每一類數據的治理實踐。

關於華爲具體是如何構建數據分類管理框架,以及具體是如何管理結構化數據、非結構化數據、外部數據和元數據的,推薦詳細閱讀華爲官方出版的《華爲數據之道》。


要想了解雲原生、區塊鏈和人工智能等技術原理,請當即長按如下二維碼,關注本公衆號亨利筆記 ( henglibiji ),以避免錯過更新。

相關文章
相關標籤/搜索