數據治理的王者——Apache Atlas

file

1、Atlas是什麼?

在當今大數據的應用愈來愈普遍的狀況下,數據治理一直是企業面臨的巨大問題。apache

大部分公司只是單純的對數據進行了處理,而數據的血緣,分類等等卻很難實現,市場上也急須要一個專一於數據治理的技術框架,這時Atlas應運而生。架構

Atlas官網地址:https://atlas.apache.org/框架

Atlas是Hadoop的數據治理和元數據框架。oop

Atlas是一組可擴展和可擴展的核心基礎治理服務,使企業可以有效,高效地知足Hadoop中的合規性要求,並容許與整個企業數據生態系統集成。大數據

Apache Atlas爲組織提供了開放的元數據管理和治理功能,以創建其數據資產的目錄,對這些資產進行分類和治理,併爲數據科學家,分析師和數據治理團隊提供圍繞這些數據資產的協做功能。3d

file

  • Atlas支持各類Hadoop和非Hadoop元數據類型orm

  • 提供了豐富的REST API進行集成blog

  • 對數據血緣的追溯達到了字段級別,這種技術尚未其實相似框架能夠實現索引

  • 對權限也有很好的控制get

2、架構原理

file

Atlas包括如下組件:

  • 採用Hbase存儲元數據
  • 採用Solr實現索引
  • Ingest/Export 採集導出組件 Type System類型系統 Graph Engine圖形引擎 共同構成Atlas的核心機制
  • 全部功能經過API向用戶提供,也能夠經過Kafka消息系統進行集成
  • Atlas支持各類源獲取元數據:Hive,Sqoop,Storm。。。
  • 還有優秀的UI支持

3、效果圖

file

file

更多大數據,Atlas,ES,Kafka等技術博文,歡迎關注實時流式計算:

file

本文由博客一文多發平臺 OpenWrite 發佈!

相關文章
相關標籤/搜索