元數據管理 web
(一) 什麼是元數據 數據庫
元數據(meta-data)是關於數據的數據,是關於數據、操縱數據的進程,以及應用程序的結構、意義的描述信息,其主要目標是提供數據資源的全面指南。元數據按其用途可分爲3類:技術元數據(technical meta-data)、業務元數據(business meta-data)和內聯映射元數據(inter-mapping meta-data)。元數據對不一樣廠商提供的不一樣軟件系統和產品之間的集成起着不可缺乏的做用。 服務器
中國電信企業在通過近20年的信息化建設後,已經造成了衆多的信息系統,這些信息系統構成了電 信行業的信息供應鏈(information supply chain,ISC)的相關組件(如計費系統,經營分析與決策支持系統,客戶關係管理系統,服務開通系統等),電信行業的信息供應鏈的組件擁有豐富的元數 據結構,且它們和元數據緊密相關。所以,須要把元數據做爲它們操做和服務的基礎。 數據結構
(二) 元數據集成體系架構提議 架構
隨着電信行業的競爭白熱化,在不可能全新設計開發全部系統的前提下,電信運營商們必然要求在信 息化建設中將遺留系統(legacy system)進行高效全面的集成,解決所謂的「信息孤島」問題,以保證信息和數據的共享,提升經營和決策的科學性和正確性。這就意味着在信息供應鏈中交 換和共享元數據成爲電信行業信息化建設不可迴避的問題。因爲這些系統分別由不一樣的廠商在不一樣的時期建設,各自擁有不一樣的元數據模型(即元模 型,metamodel)要很容易地在這些系統中共享元數據幾乎是不可能的,這就須要集成設計者經過一個和底層技術無關的通用的元數據集成模型來解決這個 問題。 app
要設計一個複雜的符合行業須要而且可實現的元數據集成體系架構,必須從2個方面考慮:元數據互連體系架構、元數據生命週期體系架構。 分佈式
(一) 元數據互連體系架構從一個高層的角度描述了一個實際的數據倉庫或ISC中軟件產品和工具之間創建的物理元數據交換鏈接。常見的互連體系結構的泛化類型 有:1.點對點模型,在須要交互的系統之間直接創建數據鏈接;2,中央輻射模型(如星形結構),創建一箇中央模型存儲庫;3.分佈式模型,多箇中央輻射式 的拓撲結構經過他們各自的中心存儲庫再以點對點方式或者中央輻射式結構鏈接起來。經過基礎的拓撲圖知識能夠知道:在一個複雜的交互環境中使用點對點模型是 代價最爲昂貴的,同時也是最複雜的,所以在大型系統集成中是徹底不可行的而中央輻射式結構在這種超大型系統中則存在處理能力不夠的弱點,所以:電信行業的 元數據互連架構只能採起分佈式模型。 svn
(二) 一個元數據的生命週期由創做、發佈、擁有、消費、管理5種活動組成。對應了5種元數據生命週期角色:做者、發佈者、全部者、消費者、管理者。這些角色定義 了元數據體系架構的另外一個觀點,即元數據生命週期體系架構,該架構定義了元數據集成體系架構的整個元數據流和行爲特性。全部業務系統是元數據體系的元數據 的做者,同時每一個業務系統都有它自己的元模型存儲庫,所以從某種意義上來講,元數據體系也是發佈者和管理者,同時它又是其餘業務系統元數據的消費者,而全 局的中央元模型存儲庫則是全局元數據的發佈者和管理者。 工具
綜合以上分析,咱們能夠得出一個較爲合理的電信行業元數據集成體系架構: 測試
(三) 客戶關懷系統中元數據管理方案實例
在此,以客戶關懷系統爲例,介紹集市開發過程當中的元數據及管理方案。
客戶關懷系統介紹:
目前,各大電信運營商對客戶的爭奪很是激烈,如何有效管理存量客戶已經成爲陝西電信關注的一個 重點;隨着市場格局的變化,須要從管理客戶數量轉變爲管理客戶質量與關係,即從大衆營銷轉爲定向營銷;而這種轉換需以識別客戶的價值和流失趨勢兩方面的特 徵爲基礎;陝西電信客戶關懷系統正是以此爲建設宗旨,爲目前陝西電信存量客戶的管理提供強有力的業務支撐和數據支撐。
所示:紅色的方框表明客戶關懷系統涉及的功能模塊;
本系統涉及的支撐系統功能數據模型設計須要遵循陝西電信IT支撐系統企業數據模型,以便之後可以順利歸入陝西電信IT支撐系統體系。詳細要求參見「數據規範」。
關於客戶關懷系統元數據管理提出:
如 上圖:因爲客戶關懷數據集市的實施,須要從電信方數據倉庫數據每個月提取部分原始帳單數據,並對此部分數據進行清洗、轉換以及彙總,爲了保證客戶關懷系統中 的相關指標和數據倉庫中指標計算的一致性、合理性,以及客戶關懷系統中數據訪問(包括數據查詢、增、刪、改)的有效監控,就需要有一套完整的元數據來定義 和維護,來有效的保證電信數據倉庫數據中各個集市數據的面向主題、集成性、數據相對穩定等特徵。
客戶關懷系統中元數據的主要管理功能:
根據客戶關懷系統的需求,以及項目組的開發經驗,把數據集市系統中,元數據機制描述爲如下五類系統管理功能:
(1)描述哪些數據在數據集市中;
(2)定義要進入數據集市中的數據和從數據集市中產生的數據;
(3)記錄根據業務事件發生而隨之進行的數據抽取工做時間安排;
(4)記錄並檢測系統數據一致性的要求和執行狀況;
(5)衡量數據質量。
依據以上提出的元數據的管理功能,將項目組開發過程當中的元數據管理劃分爲以下,並根據不用的種類來實施不一樣的元數據管理方法:
1、數據結構:
數據集的名稱、關係、字段、約束等,包括數據庫模型設計文檔,表的設計文檔,以及相關的管理,在客戶關懷系統中,數據結構的元數據管理採用svn統一版本的管理方法。
2、數據部署:
數據集的物理位置,包括數據集市平臺設計方案(服務器配置、分區、表、日誌等的管理),web平臺設計方案(web服務器的配置、數據源、鏈接池的配置等),各方案對應相關文檔,採用svn的統一版本的管理方法。
3、數據流:
數據集之間的流程依賴關係(非參照依賴),包括數據集到另外一個數據集的規則,客戶關懷系統中的 數據流劃分爲,電信原始數據、細節層數據、計算層數據、業務部分數據,每個月從電信拿到原始細節層的數據,進行保存,並更新相關元數據文檔。在細節層對電信 數據進行計算,在計算層對細節曾數據進行彙總,還包括業務庫和集市層數據的遷移,在整個數據的流向過程當中須要進行元數據的管理。並維護相關文檔。
4、質量度量:
對數據集上能夠計算的度量進行相關元數據的管理,包括詳細設計文檔中對各個表中度量的定義、描述等。
5、度量邏輯關係:
記錄數據集度量之間的邏輯運算關係。要求客戶關懷系統中對全部表和度量之間的關係進行嚴格的文檔記錄,包括度量的計算、度量之間的相互依賴關係、以及歷史信息進行元數據管理
6、ETL過程:
記錄過程運行的順序,並行、串行,由數據庫開發人員,根據各個模塊的ETL過程,制定相關元數據管理文檔,並造成元數據文檔提交svn,進行統一版本的管理。
7、數據集快照:
記錄一個時間點上,數據在全部數據集上的分佈狀況。對數據庫在這一時間的數據分佈、I/O、表空間使用,內存使用等進行快照,並造成元數據文檔提交svn,進行統一版本的管理。
8、星型模式元數據:
記錄事實表、維度、屬性、層次等。
9、數據訪問日誌:
記錄哪些數據什麼時候被何人訪問。啓用數據庫的快照捕獲以及預警,對訪問數據庫的人的相關信息進行記錄,保存數據庫訪問時間,把對數據庫表德操做、鎖、內存使用、I/O使用等信息記錄日誌,並造成元數據文檔提交svn,進行統一版本的管理。
10、質量稽覈日誌:
記錄數據庫什麼時候、何度量被稽覈,其結果;
11、 數據裝載日誌:
記錄哪些數據什麼時候被何人裝載,在客戶關懷系統中,創建日誌表,對每一個ETl過程,記錄抽取時間,操做人員,起始和截止時間,抽取涉及到的表,操做行數等相關信息。並造成元數據的文件提交svn,進行統一版本的管理。
(四) 元數據管理過程當中部分問題的處理
1. Q:如何作到數據彙總時對數據改動、數據做廢記錄時間戳、做者、錯誤緣由,代碼等信息。
A:
1、 在數據關懷數據集市中創建日誌表,在細節層、計算層的運算時對操做人員、操做時間、用時、訪問的表、操做成功標誌等進行記錄,並對此表的數據進行管理,作到有效的監控。
2、 在ETL過程當中創建日誌文件,記錄系統中的數據流向,以及錯誤故障點、錯誤信息、ETL成功標誌等信息,並提交相關人員進行處理,作到對整個ETL過程的實時監控,並有利於斷點的恢復。
2. Q:如何保證電信數據倉庫中各個數據集市的數據的相對一致性
A:
對每一個計算層和彙總層的相關指標取值進行詳細的描述,並對ETL過程進行完整的測試,統一口徑,造成元數據文檔提交svn,進行統一版本的管理