Apache Kylin 目錄詳解

時間 2020-02-07

標籤 apache kylin 目錄詳解欄目 Apache 简体版

原文原文鏈接

1、Kylin二進制源碼目錄解析

bin: shell 腳本，用於啓動/中止Kylin，備份/恢復Kylin元數據，以及一些檢查端口、獲取Hive/HBase依賴的方法等；
conf: Hadoop 任務的XML配置文件，這些文件的做用可參考配置頁面

html

lib: 供外面應用使用的jar文件，例如Hadoop任務jar, JDBC驅動, HBase coprocessor 等.
meta_backups: 執行 bin/metastore.sh backup 後的默認的備份目錄;
sample_cube 用於建立樣例 Cube 和表的文件。
spark: 自帶的spark。
tomcat: 自帶的tomcat，用於啓動Kylin服務。
tool: 用於執行一些命令行的jar文件。

2、HDFS 目錄結構

Kylin 會在 HDFS 上生成文件，根目錄是「/kylin」 (能夠在conf/kylin.properties中定製)，而後會使用 Kylin 集羣的元數據表名做爲第二層目錄名，默認爲「kylin_metadata」。node

一般，/kylin/kylin_metadata目錄下會有這麼幾種子目錄：cardinality, coprocessor, kylin-job_id, resources, jdbc-resources. shell

cardinality：Kylin 加載 Hive 表時，會啓動一個 MR 任務來計算各個列的基數，輸出結果會暫存在此目錄。此目錄能夠安全清除。各個列的基數計算以下圖所示：數據庫
coprocessor：Kylin用於存放HBase coprocessor jar的目錄；請勿刪除。apache
kylin-job_id：Cube 計算過程的數據存儲目錄，請勿刪除。如須要清理，請遵循 storage cleanup guide. 在構建Cube過程當中，會在該目錄下生成中間文件，以下圖所示：json

若是cube構建成功，該目錄會自動刪除；若是cube構建失敗，須要手動刪除該目錄。tomcat
resources：Kylin 默認會將元數據存放在 HBase，但對於太大的文件（如字典或快照），會轉存到 HDFS 的該目錄下，請勿刪除。如須要清理，請遵循 cleanup resources from metadata. 安全
jdbc-resources：性質同上，只在使用 MySQL 作元數據存儲時候出現。微信

執行Kylin官方自帶的sample.sh文件，會將數據都臨時加載到/tmp/kylin/sample_cube文件中，等到腳本執行完畢，會將該目錄刪除。ide

3、Zookeeper存儲

Kylin啓動成功後，會在Zookeeper中註冊/kylin的Znode節點，裏面包含job_engine與create_htable的Znode節點，其中create_htable與HBase服務有關。

4、Hive表

Kylin的數據來源於Hive數據庫。在構建cube的時候，會在Hive數據庫中生成中間表，若是cube構建成功，中間表會被刪除；若是cube構建失敗，中間表就會被遺留在Hive中，須要手動執行命令清理。

5、HBase表

kylin中有大量的元數據信息，包括cube的定義，星狀模型的定義、job的信息、job的輸出信息、維度的directory信息等等，元數據和cube都存儲在hbase中，其中元數據默認存儲在hbase的kylin_metadata表裏面，存儲的格式是json字符串。

當清理/刪除/合併cube時，一些HBase表可能被遺留在HBase表。若是須要清理，請諮詢：storage cleanup guide。

點關注，不迷路

好了各位，以上就是這篇文章的所有內容了，能看到這裏的人呀，都是人才。

白嫖很差，創做不易。 各位的支持和承認，就是我創做的最大動力，咱們下篇文章見！

若是本篇博客有任何錯誤，請批評指教，不勝感激！

本文來自：微信公衆號【大數據實戰演練】。閱讀更多精彩好文，歡迎關注微信公衆號【大數據實戰演練】。

相關文章

相關標籤/搜索

超詳解+圖解

紅包項目實戰

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<