換個角度認識大數據(下)——元數據管理應用

什麼是元數據?在前面的什麼是元數據文章中,咱們也提到過,元數據是數據的數據,能夠幫助數據平臺解決「有哪些數據」、「數據存儲有多少」、「數據流中的血緣關係」、「如何找到我須要的數據」、「如何使用數據」和「數據的生產進度」問題。前端

 

 

元數據管理是作什麼?架構

元數據在數據平臺對原信息的收集、彙總和傳遞將數據平臺各個模塊整合起來。元數據管理系統是收集線上db、solor集羣、hbase集羣和hive集羣的元數據信息,並將其傳遞給各其餘系統。工具

元數據管理爲大數據平臺繪製數據地圖、統一數據口徑、標明數據方位、分析數據關係、管理模型變動及精確到字段級別的影響分析。打通上下游數據繼承關係斷層,爲數據質量維護和業務邏輯可視化打下堅實基礎。大數據

 

要實現元數據管理有三個方面:3d

一、採集:指從各類工具中,把各類類型的元數據採集進來,採集是元數據管理第一步。blog

二、存儲:採集以後須要相應的存儲策略來對元數據進行存儲,這須要在不改變存儲架構的狀況下擴展元數據存儲的類型;繼承

三、分析:在採集和存儲完成後,對已經存儲的元數據進行管理分析。數據分析

 

 

在這裏咱們主要對元數據管理應用的元數據分析、數據地圖功能進行深刻了解。table

 

元數據分析集羣

假設有一天,咱們須要對某一些業務信息指標作一個報表統計,用於前端的數據展現,這些業務信息可能來自於不一樣的表,經過不一樣的ETL過程到目標數據倉庫,最後展現在一個報表中,以下圖所示:

 

 

a、血緣分析

假設你在管理報表,有一天你發現有報表數據異常,你須要找出錯誤的數據並提交流程修正,那麼這個錯誤數據從何而來?一個個覈對數據顯然不夠高效,那你就得知道這個報表的的指標來源,元數據管理工具的血緣分析功能會自動幫助你分析這個錯誤數據的上游路徑,好比這些數據是由table1和table2通過ETL過程進入DW,那麼此時你只須要去查找table1和table2以及相關的ETL過程便可。

 

血緣分析能夠清晰的幫助咱們瞭解到所維護的數據的使用與被使用狀況,猶如資產通常,便於維護定位與統一管理。

 

b、影響分析

數據終於更正了,此時你須要及時提醒你們這個數據的更正信息,只須要通知這個數據影響到的實體就能夠了,然而整個報表流程的數據傳遞這麼複雜,怎麼判斷哪些實體會受到這個數據的影響呢。

 

 

元數據管理工具的影響分析功能會分析出這個數據的影響範並能用可視化的方式展示出來,只須要更新受所影響的實體。

 

c、數據地圖展示

隨着業務規模的日益擴大,報表日益增多,有一天你想了解這個業務全部報表總體狀況,有多少數據源和ETL過程組成,此時元數據管理工具的數據地圖能夠幫助你獲取到想要的信息,數據地圖展示功能能夠經過可視化的方式,對整個業務的狀況瞭如指掌,幫助你更好地觀察整個業務流程的狀況。

 

 

在當今這個大數據時代下,數據即爲資產。數據因需求而成爲有價資產,數據多寡即窮富,然而沒法挖掘的數據是沒有任何的價值,換句話說,若是沒有管理好元數據,收集和存儲的數據都會失去意義,也就沒有業務價值。如何管理好元數據是很是重要的,根據權威數據管理研究機構TDWI對數百家國際企業的調研結果,元數據管理的重要性在所有技術主題中位列第一。經過元數據管理,能夠造成系統化數據資產的準確視圖,經過對元數據的統一視圖,管理由各個業務系統的數據,梳理業務元數據之間的關係,並能夠對這些數據進行來源、變遷進行跟蹤分析。經過精確把握數據獲取數據,從而把數據轉爲有價資產。

相關文章
相關標籤/搜索