使用Atlas進行元數據管理之Atlas簡介

背景:筆者和團隊的小夥伴近期在進行數據治理/元數據管理方向的探索, 在接下來的系列文章中, 會陸續與讀者們進行分享在此過程當中踩過的坑和收穫。html

元數據管理系列文章:

[0] - 使用Atlas進行元數據管理之Atlas簡介
[1] - 使用Atlas進行元數據管理之Glossary(術語)
[2] - 使用Atlas進行元數據管理之Type(類型)安全

0. 當咱們談論數據治理/元數據管理的時候,咱們究竟在討論什麼?

談到數據治理,天然離不開元數據。元數據(Metadata),用一句話定義就是:描述數據的數據。元數據打通了數據源、數據倉庫、數據應用,記錄了數據從產生到消費的全過程。所以,數據治理的核心就是元數據管理oop

數據的真正價值在於數據驅動決策,經過數據指導運營。經過數據驅動的方法判斷趨勢,幫住咱們發現問題,繼而推進創新或產生新的解決方案。隨着企業數據爆發式增加,數據體量愈來愈難以估量,咱們很難說清楚咱們到底擁有哪些數據,這些數據從哪裏來,到哪裏去,發生了什麼變化,應該如何使用它們。所以元數據管理(數據治理)成爲企業級數據湖不可或缺的重要組成部分。3d

惋惜很長一段時間內,市面都沒有成熟的數據治理解決方案。直到2015年,Hortonworks終於坐不住了,約了一衆小夥伴公司倡議:我們開始整個數據治理方案吧。而後,包含數據分類、集中策略引擎、數據血緣、安全和生命週期管理功能的Atlas應運而生。(PS:另外一個應用的較多的元數據開源項目是Linkedin 在2016年新開源的項目:WhereHows)Atlas目前最新的版本爲2018年9月18日發佈的1.0.0版本。code

1. Atlas介紹

Atlas 是一個可伸縮和可擴展的核心基礎治理服務集合 ,使企業可以有效地和高效地知足 Hadoop 中的合規性要求,並容許與整個企業數據生態系統的集成。htm

Apache Atlas爲組織提供開放式元數據管理和治理功能,用以構建其數據資產目錄,對這些資產進行分類和管理,併爲數據科學家,數據分析師和數據治理團隊提供圍繞這些數據資產的協做功能。
Atlas High Level Architecture對象

2. 特性

2.1 元數據類型 & 實例

  • 各類Hadoop和非Hadoop元數據的預約義類型
  • 可以爲要管理的元數據定義新類型
  • 類型能夠具備原始屬性,複雜屬性,對象引用;能夠繼承其餘類型
  • 類型(type)實例(稱爲實體entities)捕獲元數據對象詳細信息及其關係
  • 能夠更輕鬆地進行集成用於處理類型和實例的REST API

2.2 分類

  • 可以動態建立分類 - 如PII,EXPIRES_ON,DATA_QUALITY,SENSITIVE。
  • 分類能夠包含屬性 - 例如EXPIRES_ON分類中的expiry_date屬性。
  • 實體(entities)能夠與多個分類(classifications)相關聯,從而實現更輕鬆的發現和安全實施。
  • 經過血緣傳播分類 - 自動確保分類在進行各類處理時遵循數據。

2.3 血緣

  • 直觀的UI,用於在數據流轉時,經過各類流程時查看數據。
  • 用於訪問和更新血緣的REST API。

2.4 搜索/發現

  • 直觀的UI,按類型(type),分類(classification),屬性值(attribute)或自由文本搜索實體。
  • 豐富的REST API,可按複雜條件進行搜索。
  • SQL搜索實體的查詢語言 - 域特定語言(DSL)。

2.5 安全和數據屏蔽

  • 用於元數據訪問的細粒度安全性,實現對實體實例的訪問控制以及添加/更新/刪除分類等操做。
  • 與Apache Ranger集成可根據與Apache Atlas中的實體相關的分類對數據訪問進行受權/數據屏蔽。例如:
    • 誰能夠訪問分類爲PII,SENSITIVE的數據。
    • 客戶服務用戶只能看到分類爲NATIONAL_ID的列的最後4位數字。
相關文章
相關標籤/搜索