上期咱們講述的是實現數據工程師夢想的一個小目標《夢想成真,只差一步》,裏面提到了要實現數據超市的管理,數據工程師須要使用合適的工具將數據進行整理、組合、分類後上架,而後業務分析師和數據科學家就可使用了。數據庫
在整個數據工程師的工做流程中,須要自始至終的進行數據治理:咱們須要將每種類型的數據進行清晰的標識以及分類,以利於其它角色的用戶進行查找以及使用;咱們須要將每種數據的使用範圍進行管理以及監控,以使得數據被合理、合法的使用;咱們還要管理數據的生存週期以及質量溯源,以利於數據質量能夠被監管,無用數據被清除...... 所以本文中咱們將着重介紹上圖中標紅框的部分,介紹實現咱們夢想的工具Open Metadata Services - 開源組件Apache Atlas。apache
這個模塊還在Apache的孵化中,最新的版本是8月16號發佈的0.7版本。詳細文檔能夠查看如下連接:http://atlas.incubator.apache.org/安全
Atlas 最先由HortonWorks實現,用來管理Hadoop項目裏面的元數據,進而設計爲數據治理的框架。後來開源出來給Apache社區進行孵化,目前獲得Aetna,Merck,Target,SAS等公司的支持進行發展演進,IBM如今也積極貢獻功能,拿來爲我所用。(其在HortonWorks公司的介紹材料連接: https://zh.hortonworks.com/apache/atlas/#section_1 ) 從其誕生歷史看,該框架天生就支持橫向海量擴展,具有良好的集成能力,很是適合在雲上使用。如下是其架構圖:架構
Apache網站介紹它的主要功能有:框架
一、數據分類 ;工具
二、集中審計 ;oop
三、搜索及溯源 ;大數據
四、安全及策略引擎 ;網站
它的最核心部分Core就是類型管理系統 Type System , 用戶能夠把數據資產進行類型定義,而後使用Ingest/Export 的模塊進行元數據的導入、修改、刪除等管理。和外界的接口能夠經過Rest API或使用Kafaka進行消息交換。數據對象存放在按照圖的模式進行管理的Titan圖數據庫中,具體Titan又把元數據存放在HBase中,索引存放在Solr中。這樣用戶能夠很是便捷和直觀的經過層次圖進行瀏覽信息,能夠按照文字進行精確的查找。設計
如上圖,咱們將數據資產分紅了五類,分別是:Pipeline、Data Set、Report、Model、Notebook,具體存儲的屬性是紅色框部分,描述了以上五種數據資產的詳細信息:例如它是哪類型業務,數據質量如何,歸在哪一個項目裏面,具體評級如何、用戶訪問權限如何等等......
有了這個Open Data Services服務後,咱們是否以爲又離夢想近了一步?更詳細的使用咱們將在將來文章分享。
IBM對開源社區一直採起大力擁抱以及竭盡全力地進行支持的態度:
IBM基於Cloud Foundry 打造了世界最大的PaaS平臺BlueMix,在上面部署了大量開源的雲數據服務業務 - 例如Cloudant源於CouchDB,DataWorks Forge構建在Spark平臺之上。如今咱們將Atlas開源元數據管理部署到咱們的雲數據治理中,經過實際使用來促進該項目的大力發展。咱們有理由相信,將來IBM 將把開源的魔力繼續發揚光大!