這篇文章主要從數據治理的基礎和核心之一:元數據入手,從如下幾個角度展開具體講解:數據庫
若是我說:元數據(Meta Data),就是描述數據的數據。沒有技術背景加持的路人粉看到這句「繞口令」,心裏可能會浮現這樣的想法:安全
簡單點,其實元數據至關於數據的戶口本。數據結構
戶口本是什麼?它除了包含我的姓名、年齡、性別、身份證號碼等各類基本描述信息外,還有這我的和家人的血緣關係,好比說父子,兄妹等等。全部的這些信息加起來,構成對這我的的全面描述,也能夠稱之爲這我的的元數據。架構
一樣的,若是咱們要描述清楚一個實際的數據,以某張表爲例,咱們須要知道表名、表別名、表的全部者、數據存儲的物理位置、主鍵、索引、表中有哪些字段、這張表與其餘表之間的關係等等。全部的這些信息加起來,就是這張表的元數據。這麼一類比,咱們對元數據的概念可能就清楚不少了:元數據是數據的戶口本。工具
是數據治理的核心和基礎大數據
若是讓你帶兵打仗,如今你必需要掌握的信息是什麼?沒錯,一張戰場的地圖必不可少!而元數據在數據治理當中,就至關於全部數據的地圖。spa
在這張關於數據的地圖中,咱們能夠知道:日誌
……索引
因此,若是咱們作數據治理,卻沒有掌握這張地圖,就猶如瞎子摸象。後續的文章中咱們要講到的數據資產管理,知識圖譜,其實大部分也是創建在元數據之上的。因此咱們說:元數據是一個組織內的數據地圖,它是數據治理的核心和基礎。接口
元模型(Meta Model),是描述元數據的數據。它與元數據、數據之間的關係,能夠用下面這張圖來描述。
對於元模型的概念,咱們不作深刻的討論。咱們只須要知道下面這些:元數據自己的數據結構也是須要被定義和規範的,定義和規範元數據的就是元模型,國際上元模型的標準是 CWM(Common Warehouse Metamodel,公共倉庫元模型),一個成熟的元數據管理工具,須要支持 CWM 標準。
如下內容理解難度升級,請各位技術小白謹慎閱讀
若有不懂,蔣老師後臺單獨輔導!
在大數據平臺中,元數據貫穿大數據平臺數據流動的全過程,主要包括數據源元數據、數據加工處理過程元數據、數據主題庫專題庫元數據、服務層元數據、應用層元數據等。下圖以一個數據中心爲例,展現了元數據的分佈範圍:
業內一般把元數據分爲如下類型:
元數據採集是指獲取數據生命週期中的元數據,對元數據進行組織,而後將元數據寫入數據庫中的過程。使用包括數據庫直連、接口、日誌文件等技術手段,對結構化數據的數據字典、非結構化數據的元數據信息、業務指標、代碼、數據加工過程等元數據信息進行自動化和手動採集。元數據採集完成後,被組織成符合 CWM 模型的結構,存儲在關係型數據庫中。
先看一張元數據管理的總體功能架構圖,有了元數據,咱們能作些什麼,從這張圖裏一目瞭然:
(若是你沒看懂,請來評論區告訴我)
① 元數據查看
通常是以樹形結構組織元數據,按不一樣類型對元數據進行瀏覽和檢索。如咱們能夠瀏覽表的結構、字段信息、數據模型、指標信息等。經過合理的權限分配,元數據查看能夠大大提高信息在組織內的共享。
② 數據血緣和影響性分析
數據血緣和影響性分析主要解決「數據之間有什麼關係」的問題。因其重要價值,有的廠商會從元數據管理中單獨提取出來,做爲一個獨立的重要功能。可是考慮到數據血緣和影響性分析實際上是來自於元數據信息,因此仍是放在元數據管理中來描述。
血緣分析指的是獲取到數據的血緣關係,以歷史事實的方式記錄數據的來源,處理過程等。以某張表的血緣關係爲例,血緣分析展現以下信息:
數據血緣分析對於用戶具備重要的價值,如:當在數據分析中發現問題數據的時候,能夠依賴血緣關係,追根溯源,快速地定位到問題數據的來源和加工流程,減小分析的時間和難度。
數據血緣分析的典型應用場景:某業務人員發現「月度營銷分析」報表數據存在質量問題,因而向 IT 部門提出異議,技術人員經過元數據血緣分析發現「月度營銷分析」報表受到上游 FDM 層四張不一樣的數據表的影響,從而快速定位問題的源頭,低成本地解決問題。
除了血緣分析以外,還有一種影響性分析,它能分析出數據的下游流向。當系統進行升級改造的時候,若是修改了數據結構、ETL 程序等元數據信息,依賴數據的影響性分析,能夠快速定位出元數據修改會影響到哪些下游系統,從而減小系統升級改造帶來的風險。從上面的描述能夠知道:數據影響性分析和血緣分析正好相反,血緣分析指向數據的上游來源,影響性分析指向數據的下游。
影響性分析的典型應用場景:某機構因業務系統升級,在「FINAL_ZENT 」表中修改了字段:TRADE_ACCORD 長度由 8 修改成 64,須要分析本次升級對後續相關係統的影響。對元數據「FINAL_ZENT」進行影響性分析,發現對下游 DW 層相關的表和 ETL 程序都有影響,IT 部門定位到影響以後,及時修改下游的相應程序和表結構,避免了問題的發生。因而可知,數據的影響性分析有利於快速鎖定元數據變動帶來的影響,將可能發生的問題提早消滅在萌芽之中。
③ 數據冷熱度分析
冷熱度分析主要是對數據表的被使用狀況進行統計,如:表與ETL 程序、表與分析應用、表與其餘表的關係狀況等,從訪問頻次和業務需求角度出發,進行數據冷熱度分析,用圖表的方式,展示表的重要性指數。
數據的冷熱度分析對於用戶有巨大的價值,典型應用場景:咱們觀察到某些數據資源處於長期閒置,沒有被任何應用調用,也沒有別的程序去使用的狀態,這時候,用戶就能夠參考數據的冷熱度報告,結合人工分析,對冷熱度不一樣的數據作分層存儲,以更好地利用 HDFS 資源,或者評估是否對失去價值的這部分數據作下線處理,以節省數據存儲空間。
④ 數據資產地圖
經過對元數據的加工,能夠造成數據資產地圖等應用。數據資產地圖通常用於在宏觀層面組織信息,以全局視角對信息進行歸併、整理,展示數據量、數據變化狀況、數據存儲狀況、總體數據質量等信息,爲數據管理部門和決策者提供參考。
⑤ 元數據管理的其餘應用
元數據管理中還有其餘一些重要功能,如:元數據變動管理,對元數據的變動歷史進行查詢,對變動先後的版本進行比對等等;元數據對比分析,對類似的元數據進行比對;元數據統計分析,用於統計各種元數據的數量,如各種數據的種類,數量等,方便用戶掌握元數據的彙總信息。諸如此類的應用,不一一列舉。
做者簡介:蔣珍波, 6年+大數據治理經驗,擅長爲客戶提供科學合理的數據治理解決方案。曾前後供職於東南融通、軟通動力、普元信息等公司,負責過數據倉庫建設、BI、大數據平臺、數據治理等售前諮詢等工做,有政府、電力、製造業等行業經驗。目前在數瀾科技擔任大數據平臺售前諮詢工做。