數據治理之元數據管理實踐


轉載本文需註明出處:EAWorld,違者必究。

引言:

數字轉型對不一樣的人意味着不一樣的東西,這取決於你的行業和你的業務性質。然而,全部的解釋都有一個共同的主線,數據和數據治理的重要性。近年來,你們都在談論數據逐步或已經成爲企業的核心資產,數據驅動企業業務開展已經在不一樣的行業和企業中發揮着巨大的做用,那麼做爲企業的核心資產數據,如何進行管理是不一樣企業在進行全面數字化轉型須要考慮的一個重要事情。

關於元數據概念的文章網上有很多,本文主要探討通常的企業如何開展元數據管理工做。這裏分享兩個主題元數據是什麼、如何實現元數據管理。數據庫

元數據是什麼

元數據最簡單的定義是描述數據的數據。這裏有兩個關鍵點,一個是數據,一個是描述數據。企業中通常的可進行管理的數據以下表:


和元數據管理相關的另外一個重要概念是元模型,要實現企業元數據管理,須要定義一個符合存儲企業數據現狀的元數據模型,且這個模型有不一樣粒度和層次的元模型,有了層次和粒度的劃分,將來元數據進行批量管理後就能夠靈活的從不一樣維度進行元數據分析,如企業的數據地圖、數據血統都是基於此實現的。



咱們試着把企業找中的技術元數據、業務元數據、操做元數據、管理元數據進行元模型的梳理,以下圖所示:



將以上梳理出的信息經過UML建模處理就獲得了元模型,在元模型中有包、類、屬性、繼承、關係。建立元模型的時候也能夠參考CWM,CWM定義了一套完整的元模型體系結構,但它是用於數據倉庫構建和應用的元數據建模。安全

如何實現元數據管理

下面分析下企業的元數據如何管理,從元數據管理什麼、元數據怎麼管理、元數據管理的難點、元數據管理的實踐這四個方面描述。

1、元數據管理什麼

從多年的實施經驗看,國內企業進行元數據管理的方向有三個,一個是基於數據平臺進行元數據管理,因爲大數據平臺的興起,目前逐步開始針對Hadoop環境進行元數據管理;二是基於企業數據總體管理規劃開展對元數據的管理,也是企業數據資產管理的基礎;三是元數據做爲某個平臺的組件進行此平臺特有的元數據管理,它做爲一箇中介或中轉互通平臺各組件間的數據。

基於數據平臺的元數據管理相對成熟,也是業界最先進行元數據管理的切入點或者說是數據平臺建設的必備。

在此業務場景下,從技術維度講:元數據管理圍繞着數據平臺內的源系統、數據平臺、數據集市、數據應用中,數據模型,數據庫、表、字段、報表(指標存儲字段)、字段和字段間的數據關係進行管理。從業務維度講:管理指標的定義包括指標的業務維度,技術維度和管理維度三方面的數據、字段的中文描述、表的加工策略、表的生命週期信息、表或字段的安全等級。從應用維度講:實現數據平臺模型變動管理、變動影響分析、數據血統分析、高階數據地圖、調度做業異常影響範圍。

企業級數據管理,在企業總體數據管理背景下的元數據管理是數據管理的基礎,除了要管理在數據平臺元數據管理場景下的全部元數據外,核心是要解決元數據管理和數據標準、數據質量、數據安全、數據生命週期、數據服務的貫通問題,進行數據描述層面的信息融合。在此場景下,元數據管理的着力點是字段或信息項,其餘的管理維度或信息均可以基於字段或信息項進行擴展或外延。企業級的數據管理涉及的內容不少,但基於字段或信息項的擴展其結構是穩定的,它是一個支點。不然在紛繁複雜的數據管理業務中會迷茫和痛苦。下圖是基於信息項的各管理對象間數據關係,示例的說明了基於字段或信息項爲管理核心和外延的定位。



最後是基於某個大型的平臺的元數據管理,這種場景出如今應用型的產品架構中,通常企業數據管理中不會涉及這個問題,這裏就不展開介紹了。

2、元數據怎麼管理

元數據管理要符合企業數據現狀,要能支撐企業數據人員分析數據的須要,元數據是企業數據資產的最原始詞典,咱們須要從這本詞典中獲取到準確的數據信息,準確、便捷、深度、廣度是元數據管理努力的方向。

要實現企業元數據管理需從兩個方面考慮,一是盤點企業數據狀況,搞清楚要管理哪些元數據以及這些元數據在什麼地方,以何種形態存儲,他們之間有有着怎樣的聯繫。二是建模,這裏的建模是創建元數據的模型及元模型,要抽象出企業的元模型,創建個元模型之間的邏輯關係。總結的講盤點企業數據資產和創建企業元模型是元數據管理的兩個基本步驟。下面咱們展開的講一下這兩點:

企業數據資產盤點,首先要把元數據建設的定位定義清楚,短時間解決什麼問題,長期達到什麼目的,基於短時間目標要重點細化。舉個例子要實現企業物理模型的全面管理,實現數據結構變動一體化管理這個短時間目標,那麼就須要盤點企業有多少應用系統,每一個應用系統有多少個數據庫,數據庫的種類有什麼,哪些是業務數據表,哪些是垃圾數據表,每一個數據字段的含義是否完整,每一個系統那個業務部門使用,哪些管理員進行運維,企業的數據變動是否有流程驅動等。將以上信息分爲兩大類,一類是數據模型自己的元數據信息,一類是支撐數據模型管理的元數據信息,這兩類信息都是須要盤點的內容。

元數據建模,元數據建模是對企業要管理的元數據進行結構化、模型化。元模型的構建要通常要參考公共倉庫元模型CWM,但也不能照搬CWM,不然構建的元模型太過臃腫,不夠靈活。在構建元模型過程當中不但要關心模型的結構更要關係模型間的關係,每一個模型在元數據的世界裏是一個獨立的個體,個體和個體之間的關係賦予了模型間錯綜複雜的關係圈,這些關係的建立日後衍生會支撐數據圖譜或知識圖譜的構建。再拿數據資產盤點的例子來說,咱們要創建數據庫元模型、表元模型、字段元模型、管理員元模型,其中庫-表-字段是經過組合關係來構建的,而表-表、字段-字段是經過依賴關係來構建的。經過這樣的關係構建就能將企業中的全部有交互的數據造成一個錯綜複雜龐大的數據關係網絡,數據分析人員就能夠基於這張網絡進行各類信息的挖掘。

3、元數據管理中的難點

元數據管理是大數據平臺建設的重要組成部分,是企業實現數據資產,資產服務化的重要基礎,在數據管理大環境下和數據安全、數據質量、數據架構、數據模型等有着千絲萬縷的關係。也是是業務和技術互通的橋樑。所以元數據建設的好壞會對企業總體數據以及管理帶來重要的影響。

元數據管理的難點,我的認爲有三個點。

首先是元數據識別,要肯定要管理哪些元數據,按元數據的定義來看只要能描述數據的數據都能做爲元數據進行管理,但從價值角度講必定要找到對數據業務、數據運維、數據運營、數據創新帶來幫助的元數據進行管理,避免眉毛鼻子一把抓。通常企業元數據建設都是圍繞數據集中的數據平臺進行全鏈路的源、數據平臺、分析系統的元數據數據管理,圍繞這條主線,進一步管理業務元數據和操做元數據。在建設過程當中要圍繞本企業數據管理問題域進行虛實結合的建設。

其次是元模型的構建,元模型其核心結構要穩定,由於元數據的建設不是一蹴而就的,須要慢慢的積累和演變,所以存儲元數據的元模型結構必定要進行抽象出穩定的結構,好比:針對關係抽象出組合關係和依賴關係、針對模型要抽象出每一類型元數據父類或基類以方便其靈活擴展。

最後是元數據間的關係,從元數據應用的角度來看,光分析元數據的結構對數據分析人員和數據應用的價值還不是那麼的突出。元數據管理的價值主要在其關係的豐富程度,舉個不恰當的例子,猶如一我的若是其社會關係足夠的豐富,那麼其處理各類事情就遊刃有餘,元數據也相似數據分析和應用必定是從其關係中探尋出數據的價值進而指導業務或進行數據創新。從長期的實踐中發現,基於信息項或字段的元數據關係構建是最穩定的。

4、元數據管理最佳實踐

下面從多年的實踐角度談一談元數據管理:

謀定然後動,元數據管理是一盤棋,須要進行管理設計,如基於規範和制度的設計,元模型的設計、實施的設計,推廣的設計,每一環節想想再動。

選好價值點,元數據管理是紛繁複雜的,它是對企業數據現狀的一種抽象、整合和展示,其管理是複雜和不容易的,其價值有多是隱形的、不容易察覺的,它是一項承上啓下,貫通業務和技術的基礎性管理工做,所以選好不一樣時期其管理的價值點,逐步影響企業的方方面面。

選好工具,元數據管理可藉助管理工具使管理工做變的相對快速和簡單一些,如元數據的採集、元數據存儲、數據血統、數據地圖、元數據整合等均可以經過元數據工具來實現。
 網絡

關於做者:王鵬,現任普元大數據產品線總經理,2009年進入國內數據治理領域,前後主導或參與金融、運營商、製造、政府、航空,物流等行業的數據治理解決方案的編寫,以及相關落地項目的實施。數據結構


關於EAWorld:微服務,DevOps,數據治理,移動架構原創技術分享。長按二維碼關注!架構

相關文章
相關標籤/搜索