Atlas 2.1.0 實踐(1)—— 編譯Atlas

爲何要作數據治理? 業務繁多,數據繁多,業務數據不斷迭代。人員流動,文檔不全,邏輯不清楚,對於數據很難直觀理解,後期很難維護。java

在大數據研發中,原始數據就有着很是多的數據庫,數據表。node

而通過數據的聚合之後,又會有不少的維度表。若是想要對這些數據作好管理,光用文字、文檔等東西是不夠的,必須用圖。linux

Atlas就是把元數據變成圖的工具。web

http://atlas.apache.org/數據庫

Atlas是一組可擴展和可擴展的核心基礎治理服務,使企業可以有效地知足Hadoop中的合規性要求,並容許與整個企業數據生態系統集成。apache

Apache Atlas爲組織提供開放的元數據管理和治理功能,以創建其數據資產的目錄,對這些資產進行分類和治理,併爲數據科學家,分析師和數據治理團隊提供圍繞這些數據資產的協做功能。網絡

那麼如何安裝並使用Altas呢?框架

Atlas的安裝坑較多,本教程將詳細介紹Atlas2.1.0整個安裝過程,有任何問題歡迎關注 實時流式計算maven

後臺留言~函數

下載

請前往官網 https://atlas.apache.org/#/Downloads

下載對應版本的源碼包 本文使用最新的 2.1.0版本

國內站點 速度要快一些

https://mirrors.tuna.tsinghua.edu.cn/apache/atlas/2.1.0/apache-atlas-2.1.0-sources.tar.gz

編譯

比較難受的是 Atlas不提供安裝包 下載的是源碼包 須要自行編譯打包

注意,須要先安裝maven,由於這是使用maven開發的java web工程。maven3.6.3版本便可

安裝maven

一些下載地址

http://maven.apache.org/download.cgi

https://mirrors.tuna.tsinghua.edu.cn/apache/maven/maven-3/3.6.3/binaries/apache-maven-3.6.3-bin.tar.gz

上傳到linux的/usr/local目錄

cd /usr/local

解壓文件

tar -zxvf apache-maven-3.6.3-bin.tar.gz

配置環境變量

vi /etc/profile
export MAVEN_HOME=/usr/local/apache-maven-3.6.3
export PATH=MAVEN_HOME/bin:PATH

刷新環境變量

source /etc/profile

檢查版本

mvn -v

配置好maven的環境變量
注意國內須要配置好maven的國內鏡像,通常使用阿里,華爲,清華等鏡像
vi /usr/local/apache-maven-3.6.3/conf/settings.xml

<mirror>
    <id>alimaven</id>
    <name>aliyun maven</name>
    <url>http://maven.aliyun.com/nexus/content/groups/public/</url>
    <mirrorOf>central</mirrorOf>
</mirror>

把這個setting.xml 拷貝到 ~/.m2/

cp settings.xml .m2/

編譯Atlas

解壓源碼包

tar -zxvf apache-atlas-2.1.0-sources.tar.gz
1.修改atlas源碼工程的pom.xml

將hbase zookeeper hive等依賴的版本修改爲本身環境中一致的版本(或者兼容的版本)

父工程pom文件
<zookeeper.version>3.4.14</zookeeper.version>
<hbase.version>2.2.3</hbase.version>
<solr.version>7.7.2</solr.version>
2.執行maven編譯打包

atlas可使用內嵌的hbase-solr做爲底層索引存儲和搜索組件,也可使用外置的hbase和solr
若是要使用內嵌的hbase-solr,則使用以下命令進行編譯打包
cd apache-atlas-sources-2.1.0/
export MAVEN_OPTS="-Xms2g -Xmx2g"
mvn clean -DskipTests package -Pdist,embedded-hbase-solr

不用內置就這樣 mvn clean -DskipTests package -Pdist

改完路徑還會很是快的 耐心等待

atlas的webui子模塊中依賴了nodejs,會從nodejs的中央倉庫去下載相關依賴庫

編譯完成以後,會產生打包結果,所在位置是:源碼目錄中的新出現的distro/target目錄

  • 注意,這裏產出的有壓縮包也有解壓後的包。這裏面的hook包,能夠看到有各類平臺的hook包。
  • 顧名思義,這就是鉤子包,也就是各個大數據框架會提供各類生命週期回調函數,而且將相關信息以數據方式提供出來。這些鉤子就能夠去監聽和接收數據

若是沒有錯誤 並看到一排success就是成功了

踩坑大全:

包下載失敗

在Atlas編譯過程當中,遇到最多的就是包下載失敗的問題,這和當前網絡有很大的關係。

選擇網速較好的網絡。

還有一種解決辦法就是去官網上找一下,若是真沒有就切換到爭取的maven源

瞭解大數據實時計算 感覺數據流動之美 歡迎關注 實時流式計算

相關文章
相關標籤/搜索