轉載本文需註明出處:微信公衆號EAWorld,違者必究。數據庫
在各類數字化的影響下,將企業環境中的各類元數據整合利用相當重要。對於企業來講,選擇適合本身的元數據管理工具將能最大化發揮元數據的做用,以協助企業完成在數據方面的戰略目標。微信
企業中不一樣角色對元數據工具的指望可能有所不一樣,但這些指望基本均可以映射到元數據管理工具的十大能力上,固然這些能力背後少不了關鍵技術的支撐。架構
本文分爲三部分,在第一部分,咱們會先根據企業中的不一樣角色,列出不一樣角色對元數據管理的指望;而後在第二部分,總結在理想狀況下元數據管理工具須要具有的十大能力,並將這些能力與不一樣的角色作關聯,以便不一樣企業能夠根據自身狀況選擇合適的元數據管理工具;最後在第三部分,將給出幾種現階段實現元數據管理的關鍵技術。運維
目錄:微服務
1、不一樣角色對元數據管理的指望不一樣工具
2、如何選擇適合本身的元數據工具?測試
3、元數據管理的關鍵技術?大數據
4、總結架構設計
1、不一樣角色對元數據管理的設計
指望不一樣
爲了站在不一樣角色的角度回答這個問題,咱們先把企業中與元數據管理項目相關的幾種角色列一列,這裏暫且將這些角色分爲企業高管、數據開發人員、數據分析人員、數據管理人員、運維人員、其餘業務用戶幾種。
圖 1:與元數據管理相關的角色
企業高管:在數據愈來愈重要的形勢下,高管們比較關心的是企業的整個數據全貌以及數據在全企業中的使用情況(或者能夠說是更注重數據資產與應用層面),可是沒有一我的能直接告訴領導企業中的數據是什麼樣,具體的使用流通狀況是什麼,有效的元數據管理能很好地回答企業高管的這些問題。
數據開發人員:對於數據開發來講,最多見的問題就是大量的重複工做:明明已經有了如出一轍的接口或者腳本,可是由於是別人寫的,沒有統一標識並管理起來,因此根本就找不到,即便找到了可能也會由於缺乏相關的解釋說明,根本沒法重複利用,下降數據開發效率的同時也形成了大量的冗餘。元數據管理能方便數據開發人員查找想重複利用的信息,而解釋說明剛好能夠經過業務元數據管理來實現。
數據分析人員:數據分析人員一般須要經過較高級的數據統計分析實現公司與戰略決策、業務或考覈相關的目標。對於他們來講,錯綜複雜的數據關係、良莠不齊的數據質量和業務元數據的缺失是主要問題。元數據管理下降了這些信息的獲取門檻,也爲數據質量的問題追溯提供了支持。
數據管理人員:數據管理人員一般須要負責數據從設計、測試到部署交付的全生命週期管理。對於他們來講,一般須要管理各類版本的數據信息,並管理企業數據的生命週期,如何控制各狀態下數據的協調一致和及時判斷數據處於什麼週期須要作什麼操做是目前急需解決的問題。這能夠經過管理企業元數據來實現。
運維人員:對於運維人員來講,須要時刻保證系統的穩定性,尤爲是當企業模型發生變動時,要不斷判斷變動帶來的影響,顯然人工判斷的方式在準確性和實時性上都很難保證,並且對運維人員的業務能力要求較高,很大程度上增長了系統風險。經過元數據管理,當系統變動時,能夠根據已經獲取到的系統、表等對象間關係自動分析出變動帶來的影響,用自動化的方式下降維護成本,提高用戶體驗。
其餘業務人員:因爲業務人員對業務規則、業務流程比較熟悉,一般不須要對技術細節有很深刻的瞭解,技術門檻每每致使業務人員獲取和理解數據難,由於不瞭解數據存儲狀況,也很難技術溝通業務需求,每每最終難到手的數據也不是本身想要的,難以匹配業務的快速發展。
2、如何選擇適合本身的
元數據工具?
經過以上能夠看出,不一樣用戶對元數據管理工具寄予着不一樣的指望(見圖2)
圖 2 :不一樣用戶對元數據管理工具寄予着不一樣的指望
企業開展元數據管理項目可能須要解決的是其中一類用戶或者其中幾類用戶的問題,咱們先列出一些元數據管理工具的基本能力,而後再將這些能力與上文中的指望對應起來,企業能夠經過參考兩者之間的對應關係,來指向性地選擇適合本身的元數據管理工具。
經過大量元數據項目的實踐,我總結出了在理想狀況下,元數據管理工具須要具有的十種能力,以下:
圖 3:元數據管理工具的十種能力
元數據採集能力
從錯綜複雜的企業環境中自動實時解析和採集各類元數據的能力,爲應對各類數據環境,這個環節一般須要使用各類技術和語法來支持大數據平臺、關係型數據庫、第三方工具、存儲過程、腳本、文本文件、表格文件的自動化採集。
元數據存儲能力
將採集過來的元數據進行統一存儲的能力,爲支持各類元數據以及元數據之間關係的存儲,元數據存儲須要靈活可擴展的架構支撐,另外,可以實時更新存儲也是很重要的一點。
元數據查找能力
提供統一的端口對元數據進行查找的能力,完善的元數據管理工具應該能支持按照企業的各類分類方法來對元數據進行查找(有一部分分類方式蘊含在元數據自己中,須要經過對元數據進行分析以後得到)。好比你可能會按照系統、表、指標、接口等不一樣維度查找信息,甚至會根據本身的查找習慣新建一個徹底不一樣的類別。
血緣分析/關係分析能力
分析數據的來源和數據的流向,揭示數據的上下游關係,在元數據管理工具中分析、描述並可視化其中的細節,方便用戶對關鍵信息進行跟蹤。完善的血緣分析須要是橫向(當前)和縱向(歷史)雙向可用的,以方便對同一時期不一樣對象的分析和不一樣時期同一對象的變化。
基於角色的訪問控制和分層
元數據的增刪改等權限的控制是元數據管理工具中須要特別注意的地方,工具中應該支持訪問權限的控制。好比,數據管理員具備全部權限,開發人員可能更關注開發環境、測試環境元數據,而企業管理者可能只關注生產環境的元數據狀況,總經理級別的用戶能夠訪問企業多種環境下的元數據,而部門負責人可能只關注與本部門相關的元數據。
業務元數據管理能力
採集企業環境中的業務元數據,並完成業務元數據與技術元數據的映射,爲元數據賦予業務屬性,這也是發揮元數據管理工具業務價值的一個關鍵。
圖 4:技術元數據與業務元數據的對應
元數據變動控制能力
當元數據須要變動時,提供變動審覈能力,明確元數據版本,保存元數據的歷史狀態,在發生任何問題時能夠自動恢復到以前的版本。在某個元數據項發生變動時,可能還須要對該次變動將要產生的影響進行分析和評估。
元數據對比分析能力
對不一樣環境中的元數據進行對比分析,分析其中的異同,必要時還能根據分析結果產出相應的分析報告。
數據生命週期管理能力
在理想狀態下,元數據管理工具應該保留數據從建立、存儲,到過期被刪除/備份等各類狀態下的元數據,從而管理數據在整個生命週期中的流動。做爲一項規則,較新的數據和那些極可能被更加頻繁訪問的數據,應該存儲在容易被訪問的位置,而那些不是很重要的數據則能夠備份存儲在比較便宜的,稍微慢些的媒介上。
圖 5:數據生命週期
與其餘系統的集成能力
要想讓元數據管理系統發揮業務價值,還有很是重要的一點就是元數據管理工具與其餘系統的集成能力。
這些能力與剛開始提出的幾種需求之間的對應關係整理以下(鑑於元數據採集與元數據存儲是幾乎每種需求都須要的基本能力,因此我把這兩項單獨拿出來不參與對應),企業可根據對應關係來選擇元數據管理工具:
圖 6:角色與十大能力的對應關係
3、元數據管理的關鍵技術?
通常來講,元數據管理項目須要用到衆多技術,在這裏講四種:高度靈活可擴展的架構、角色訪問控制和分層、業務元數據與技術元數據對應、與其餘系統的集成。
圖 7:元數據管理的關鍵技術
高度靈活可擴展的架構
企業數據環境中的數據雜亂,形態多樣,標準不一,若要實現全部元數據的有效採集或者自動化採集和存儲,必須有高度靈活可擴展的架構支撐,也意味着元數據的架構要能和企業的各類模型進行「交流」,這在以前王軒的文章《大數據治理技術核心,可擴展的元數據架構設計》中說起到了具體方法,在這裏再也不多說。
角色訪問控制和分層
如上文所述,企業元數據管理涉及到不少不一樣的人員,優秀的元數據管理工具應該作好角色訪問控制,具體實現方法能夠歸結爲兩種:
一、在平臺彙總創建角色分層機制/角色組,將企業中的不一樣角色按照具體需求分類到不一樣的角色組中,對不一樣角色組展現不一樣的功能。
二、在工具內部創建角色與功能之間的映射,而且支持根據企業狀況進行靈活配置(畢竟各企業的角色和所對應的功能不盡相同),根據映射對不一樣角色展現不一樣的功能。
業務元數據與技術元數據的對應
這是企業從數據管理向知識管理轉變的關鍵,關於業務元數據與技術元數據的對應,能夠參考咱們以前寫過的文章。另外我認爲除了領域本體構建,編織模型(Weaving Model,V. Stefanov提出)將來也可能會成爲對應兩者之間關係的一種技術,這種方式經過編織模型來存儲和管理企業不一樣模型之間的關係,例如,經過創建星型模型/雪花型模型與業務流程模型、企業組織架構等之間的關係,能夠自動獲取到數據所對應的業務信息和管理者信息等。
與其餘系統的集成
隨着各類數據政策的出臺,元數據成爲企業各類流程中不可或缺的重要部分,人們對元數據驅動的呼聲愈來愈高,而要實現元數據驅動,除了元數據分類和模型的標準化,元數據管理工具是否與企業的其餘系統(好比,CRM、ERP、SCM、OA等系統,還有同與數據管理相關的數據標準系統、數據質量系統)集成,爲其餘系統提供元數據服務,是主要的關鍵點。一種方法是向企業中的不一樣角色、不一樣用戶、不一樣系統提供能夠靈活配置的接口,實現全企業的而高效協做;另外一種方法是將元數據管理工具直接集成到企業的portal中,在企業其餘信息系統中保留元數據存儲庫的入口。
圖 8:元數據管理的需求-能力-技術模型
不一樣的企業對元數據管理有不一樣的需求,企業要選擇最適合自身狀況的元數據管理工具。本文給出了基於角色的元數據管理需求,以及這些需求與元數據管理十大能力之間的映射關係,這種映射關係能夠幫助企業選擇具備特定能力的元數據管理工具,在最後,對幾種支撐這些能力關鍵技術作出瞭解釋。
參考文獻:
1.王軒. 大數據治理技術核心,可擴展的元數據架構設計[EB/OL]. http://www.cbdio.com/BigData/2016-07/12/content_5076844.htm.
2.V Stefanov. Explaining Data Warehouse Data to Business Users.[EB/OL]. http://aisel.aisnet.org/cgi/viewcontent.cgi?article=1070&context=ecis2007.
3.KM, Hüner. Collaborative management of business metadata[EB/OL]. https://www.sciencedirect.com/science/article/pii/S0268401210001817.
關於做者:龔菲,現任普元數據治理團隊產品工程師,3年數據治理經驗,負責國內外數據治理趨勢研究、普元數據治理產品研究與推廣,掌握國內外數據治理產品的發展趨勢,編寫了一系列數據治理文章。前後參與了華夏人壽、海通證券、東方航空等數據項目,尤爲是對元數據相關理論與業界產品有深刻了解,擅長業務元數據管理、本體構建等元數據相關領域知識。
關於EAWorld:微服務,DevOps,數據治理,移動架構原創技術分享,長按二維碼關注