背景:筆者和團隊的小夥伴近期在進行數據治理/元數據管理方向的探索, 在接下來的系列文章中, 會陸續與讀者們進行分享在此過程當中踩過的坑和收穫。html
[0] - 使用Atlas進行元數據管理之Atlas簡介
[1] - 使用Atlas進行元數據管理之Glossary(術語)
[2] - 使用Atlas進行元數據管理之Type(類型)安全
談到數據治理,天然離不開元數據。元數據(Metadata),用一句話定義就是:描述數據的數據。元數據打通了數據源、數據倉庫、數據應用,記錄了數據從產生到消費的全過程。所以,數據治理的核心就是元數據管理
。oop
數據的真正價值在於數據驅動決策,經過數據指導運營。經過數據驅動的方法判斷趨勢,幫住咱們發現問題,繼而推進創新或產生新的解決方案。隨着企業數據爆發式增加,數據體量愈來愈難以估量,咱們很難說清楚咱們到底擁有哪些數據,這些數據從哪裏來,到哪裏去,發生了什麼變化,應該如何使用它們。所以元數據管理(數據治理)成爲企業級數據湖不可或缺的重要組成部分。3d
惋惜很長一段時間內,市面都沒有成熟的數據治理解決方案。直到2015年,Hortonworks終於坐不住了,約了一衆小夥伴公司倡議:我們開始整個數據治理方案吧。而後,包含數據分類、集中策略引擎、數據血緣、安全和生命週期管理功能的Atlas應運而生。(PS:另外一個應用的較多的元數據開源項目是Linkedin 在2016年新開源的項目:WhereHows
)Atlas目前最新的版本爲2018年9月18日發佈的1.0.0
版本。code
Atlas 是一個可伸縮和可擴展的核心基礎治理服務集合 ,使企業可以有效地和高效地知足 Hadoop 中的合規性要求,並容許與整個企業數據生態系統的集成。htm
Apache Atlas爲組織提供開放式元數據管理和治理功能,用以構建其數據資產目錄,對這些資產進行分類和管理,併爲數據科學家,數據分析師和數據治理團隊提供圍繞這些數據資產的協做功能。
對象