企業數據管理的內容及範疇一般包括交易數據、主數據以及元數據。
(1)交易數據:用於紀錄業務事件,如客戶的訂單,投訴記錄,客服申請等,它每每用於描述在某一個時間點上業務系統發生的行爲。
(2)主數據:主數據則定義企業核心業務對象,如客戶、產品、地址等,與交易流水信息不一樣,主數據一旦被記錄到數據庫中,須要常常對其進行維護,從而確保其時效性和準確性;主數據還包括關係數據,用以描述主數據之間的關係,如客戶與產品的關係、產品與地域的關係、客戶與客戶的關係、產品與產品的關係等。
(3)元數據:即關於數據的數據,用以描述數據及其環境的結構化信息,便於查找、理解、使用和管理數據。數據庫
咱們前面講解的技術和平臺都在解決主數據和交易數據的採集、加工、存儲、計算等問題。但面對海量且持續增長的各式各樣的數據時,你必定想知道數據從哪裏來以及它如何隨時間而變化?採用Hadoop必須考慮數據管理的實際狀況,元數據與數據治理成爲企業級數據湖的重要部分。
所謂元數據管理其實通俗來說就兩點:
(1)把各個組件(通常是存儲)的元數據收集起來統一管控
(2)利用這些收集的元數據去實現各類上層應用以知足各類數據治理場景(數組資產目錄、數據分類、搜索與血緣等等)apache
Apache Atlas是Hadoop社區爲解決Hadoop生態系統的元數據治理問題而產生的開源項目,它爲Hadoop集羣提供了包括 數據分類、集中策略引擎、數據血緣、安全和生命週期管理在內的元數據治理核心能力。能夠幫助企業構建其數據資產目錄,對這些資產進行分類和管理,併爲數據分析師和數據治理團隊,提供圍繞這些數據資產的協做功能。
Atlas不盡致力於管理共享元數據、數據分級、審計、安全性以及數據保護等方面,同時努力與Apache Ranger整合,用於數據權限控制策略。
Apache Atlas是hadoop的數據治理和元數據框架,它提供了一個可伸縮和可擴展的核心基礎數據治理服務集,使得 企業能夠有效的和高效的知足Hadoop中的合規性要求,並容許與整個企業的數據生態系統集成。
數組
Atlas 是一個可伸縮且功能豐富的數據管理系統,深度集成了 Hadoop 大數據組件。簡單理解就是一個跟 Hadoop 關係緊密的,能夠用來作元數據管理的一個系統,整個結構 圖以下所示:
安全
集成原理
驗證Hive元數據採集效果架構
create database if not exists foo;
框架
在上線Atlas以前Hive可能運行好久了,因此歷史上的元數據沒法觸發hook,所以須要一個工具來作初始化導入。
Apache Atlas提供了一個命令行腳本 import-hive.sh ,用於將Apache Hive數據庫和表的元數據導入Apache Atlas。該腳本可用於使用Apache Hive中的數據庫/表初始化Apache Atlas。此腳本支持導入特定表的元數據,特定數據庫中的表或全部數據庫和表。
導入工具調用的是對應的Bridge:org.apache.atlas.hive.bridge.HiveMetaStoreBridge執行導入腳本任意找一臺安裝過Atlas client的節點,執行以下命令:
注意:必定要進入atlas用戶,由於Atlas的Linux管理帳戶是atlas,其餘帳戶下可能會報沒有權限的錯誤。
腳本執行過程當中會要求輸入Atlas的管理員帳號/密碼(admin/admin%123),看到以下信息就成功了:
ide