元數據管理
概述
元數據一般定義爲」關於數據的數據」,在數據倉庫中是定義和描述DW/BI系統的結構,操做和內容的全部信息。元數據貫穿了數據倉庫的整個生命週期,使用元數據驅動數據倉庫的開發,使數據倉庫自動化,可視化。前端
元數據在構建數倉過程當中,定義了源數據系統到數據倉庫的映射、數據轉換的規則、數據倉庫的邏輯結構、數據更新的規則、數據導入歷史記錄以及裝載週期等相關內容。數據抽取和轉換的專家以及數據倉庫管理員正是經過元數據高效地構建數據倉庫。web

元數據類型
1.業務元數據
業務元數據指從業務角度描述業務領域相關的概念、關係和規則的數據,包括業務術語和業務規則等信息。數據庫
2.技術元數據
技術元數據指描述系統中技術細節相關的概念、關係和規則的數據,包括對數據結構、數據處理方面的描述,以及數據倉庫、ETL、前端展示等技術細節方面的信息。安全
技術元數據又細分爲:微信
-
數據源元數據 -
ETL元數據 -
數據倉庫元數據 -
BI元數據
3.管理元數據
管理元數據指描述管理領域相關的概念、關係和規則的數據,主要包括管理流程、人員組織、角色職責等信息。數據結構
元數據獲取途徑
-
外部數據源
主要有源系統、ETL工具、報表工具的元數據架構
-
數據倉庫
數據庫物理模型的元數據app
-
手工補錄
主要有Mapping文檔、任務配置、業務規則、業務術語、業務人員手工補錄的數據,大多數是規則明確的業務數據數據庫設計
元數據功能
血緣分析: 向上追溯元數據對象的數據來源。編輯器
影響分析:向下追溯元數據對象對下游的影響。
同步檢查: 檢查源表到目標表的數據結構是否發生變動。
指標一致性分析: 按期分析指標定義是否和實際狀況一致。
實體關聯查詢: 事實表與維度表的代理鍵自動關聯
元數據應用
ETL自動化管理: 使用元數據信息自動生成物理模型,ETL程序腳本,任務依賴關係和調度程序。
數據質量管理: 使用數據質量規則元數據進行數據質量測量。
數據安全管理: 使用元數據信息進行報表權限控制。
數據標準管理: 使用元數據信息生成標準的維度模型。
數據接口管理: 使用元數據信息進行接口統一管理。
數據質量管理
概述
數據質量的高低表明了該數據知足數據消費者指望的程度,這種程度基於他們對數據的使用預期。數據質量必須是可測量的,把測量的結果轉化爲能夠理解的和可重複的數字,使咱們可以在不一樣對象之間和跨越不一樣時間進行比較。
數據質量管理是經過計劃、實施和控制活動,運用質量管理技術度量、評估、改進和保證數據的恰當使用。
數據質量產生的根本緣由
-
源系統:源系統的數據結構發生變化,這是常有的事,數據倉庫只是數據存儲中心,而源系統的改變會形成數據倉庫中數據質量發生變化 -
ETL:源系統業務流程發生了變動 -
業務需求:
-
源系統數據錄入錯誤或者延遲 -
源系統隨着時間的推移,數據發生了演變 -
需求不明確或者知足不了客戶需求 -
ETL映射規則錯誤 -
ETL程序錯誤 -
數據沒有及時到達或者依賴關係錯誤 -
源系統的業務數據與業務需求發生衝突
數據質量面臨的挑戰
數據的污染是在數據倉庫中處理的,延伸出去就造成了專業的數據治理,可是數據的污染卻在數據倉庫以外發生的,全部必需要清楚數據的污染源有哪些:
**系統轉換:**源系統的系統升級、轉換、遷移是數據污染的重要緣由
**數據老化:**在經歷一代又一代的系統升級、轉換、遷移,歷史數據每每沒法知足當時時間的業務需求
**複雜的系統集成:**源系統種類繁多,關係日漸複雜,出現污染數據的可能性愈來愈大
拙劣的數據庫設計: 堅持實體完整性和參考完整性規則能夠防止一些數據污染,可是目前數據倉庫存在兩種觀點:注重模型、注重集市,圍繞業務進行數據庫設計,這兩種觀點與傳統的十大主題設計存在矛盾點。
數據輸入的不完整性:源系統的數據輸入是數據污染的主要來源,信息輸入錯誤會給數據倉庫模型創建形成很大的壓力
缺少數據治理相關的政策:若是一個公司對數據質量沒有明確的相關政策,那麼他的數據質量不可能獲得保證
數據質量的指標
準確性
準確性要求數據可以正確描述客觀世界。好比某用戶姓名拼音mu chen錯誤的錄入成了muc hen,就應該彈出警告語;
惟一性(視狀況而定)
惟一性要求數據不能被重複錄入,或者不能有兩個幾乎相同的關係。好比張三李四在不一樣業務環境下分別創建了近乎相同的關係,這時應將這兩個關係合併;
完整性
完整性要求進行數據蒐集時,需求數據的被描述程度要高。好比一個用戶的購買記錄中,必然要有支付金額這個屬性;規則驗證。
一致性
一致性要求不一樣關係、或者同一關係不一樣字段的數據意義不發生衝突。
好比某關係中昨天存貨量字段+當天進貨量字段-當天銷售量字段等於當天存貨量就多是數據質量有問題;
及時性
及時性要求數據庫系統中的數據"保鮮"。好比當天的購買記錄當天就要入庫;
統一性
統一性要求數據格式統一。好比nike這個品牌,不能有的字段描述爲"耐克",而有的字段又是"奈克";
元數據的做用
在數據倉庫中,元數據的主要做用以下。
-
(1)描述哪些數據在數據倉庫中,幫助決策分析者對數據倉庫的內容定位。 -
(2)定義數據進入數據倉庫的方式,做爲數據彙總、映射和清洗的指南。 -
(3)記錄業務事件發生而隨之進行的數據抽取工做時間安排。 -
(4)記錄並檢測系統數據一致性的要求和執行狀況。 -
(5)評估數據質量。
2020-11-11

2020-11-10

2020-11-09


掃描下方二維碼
加入優質社羣一塊兒交流吧!
如若二維碼過時
請添加小編微信,回覆關鍵詞:[進羣/加羣],
-今日互動-
元數據管理你瞭解了嗎?歡迎文章下方留言互動
若是對你有幫助的話
❤️來個「轉發朋友圈」和「在看」,是最大的支持❤️
本文分享自微信公衆號 - DataScience(DataScienceTeam)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。