Kylin與CDH兼容性剖析

時間 2019-11-17

標籤 kylin cdh 兼容性剖析简体版

原文原文鏈接

1. 概述

　　Apache Kylin™是一個開源的分佈式分析引擎，提供Hadoop之上的SQL查詢接口及多維分析（OLAP）能力以支持超大規模數據，最初由eBay Inc. 開發並貢獻至開源社區。它能在亞秒內查詢巨大的Hive表。java

2. 內容

　　在集成Kylin到CDH Hadoop環境中時，發現新版本Kylin-2.2.0沒法集成到CDH Hadoop。環境信息以下：git

Hadoop：CDH-5.4.2，Hadoop-2.6
Hive：Hive-2.1.1
HBase：CDH-5.4.2，HBase-1.0.0

　　上述版本，若是使用apache-kylin-2.2.0-bin-cdh57.tar.gz集成，Kylin系統能夠正常啓動，可是在預編譯Cube，將編譯的結果寫入HBase時會出現對應的類找不到。去翻閱CDH-HBase-1.0.0的源代碼確實沒有對應的類。在Kylin的JIRA中也有記錄該現象，你們能夠翻閱問題單：[KYLIN-1089]apache

2.1 Patch

　　針對該問題能夠編輯源代碼後，從新編譯。須要注意的是，若是你想將pom.xml文件中的屬性「hbase-hadoop2.version」改成「1.0.0-cdh5.4.2」，在編譯的時候會出現「org.apache.hadoop.hbase.regionserver.ScannerContext.java」找不到。確實，在CDH版的HBase-1.0.0版本中該類不存在，在CDH中最低支持5.5.4，對應的Patch代碼以下所示：分佈式

From c0e053d16fc8fa36947e6181589505b722ea54dd Mon Sep 17 00:00:00 2001
From: shaofengshi <shaofengshi@apache.org>
Date: Fri, 11 Nov 2016 08:41:57 +0800
Subject: [PATCH] KYLIN-1089 support CDH 5.5/hbase1.0

---
 pom.xml                                                      | 12 ++++++------
 .../v1/coprocessor/observer/AggregateRegionObserver.java     |  4 ++--
 .../hbase/cube/v1/filter/TestFuzzyRowFilterV2EndToEnd.java   |  3 +--
 3 files changed, 9 insertions(+), 10 deletions(-)

diff --git a/pom.xml b/pom.xml
index 9b84f23..8352e97 100644
--- a/pom.xml
+++ b/pom.xml
@@ -46,19 +46,19 @@
         <project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>
 
         <!-- Hadoop versions -->
-        <hadoop2.version>2.6.0-cdh5.7.0</hadoop2.version>
-        <yarn.version>2.6.0-cdh5.7.0</yarn.version>
+        <hadoop2.version>2.6.0-cdh5.5.4</hadoop2.version>
+        <yarn.version>2.6.0-cdh5.5.4</yarn.version>
 
         <!-- Hive versions -->
-        <hive.version>1.1.0-cdh5.7.0</hive.version>
-        <hive-hcatalog.version>1.1.0-cdh5.7.0</hive-hcatalog.version>
+        <hive.version>1.1.0-cdh5.5.4</hive.version>
+        <hive-hcatalog.version>1.1.0-cdh5.5.4</hive-hcatalog.version>
 
         <!-- HBase versions -->
-        <hbase-hadoop2.version>1.2.0-cdh5.7.0</hbase-hadoop2.version>
+        <hbase-hadoop2.version>1.0.0-cdh5.5.4</hbase-hadoop2.version>
         <kafka.version>0.8.1</kafka.version>
 
         <!-- Hadoop deps, keep compatible with hadoop2.version -->
-        <zookeeper.version>3.4.5-cdh5.7.0</zookeeper.version>
+        <zookeeper.version>3.4.5-cdh5.5.4</zookeeper.version>
         <curator.version>2.7.1</curator.version>
         <jackson.version>2.2.4</jackson.version>
         <jsr305.version>3.0.1</jsr305.version>
diff --git a/storage-hbase/src/main/java/org/apache/kylin/storage/hbase/cube/v1/coprocessor/observer/AggregateRegionObserver.java b/storage-hbase/src/main/java/org/apache/kylin/storage/hbase/cube/v1/coprocessor/observer/AggregateRegionObserver.java
index 7e25e4c..7139ca7 100644
--- a/storage-hbase/src/main/java/org/apache/kylin/storage/hbase/cube/v1/coprocessor/observer/AggregateRegionObserver.java
+++ b/storage-hbase/src/main/java/org/apache/kylin/storage/hbase/cube/v1/coprocessor/observer/AggregateRegionObserver.java
@@ -26,7 +26,7 @@ import org.apache.hadoop.hbase.client.Scan;
 import org.apache.hadoop.hbase.coprocessor.BaseRegionObserver;
 import org.apache.hadoop.hbase.coprocessor.ObserverContext;
 import org.apache.hadoop.hbase.coprocessor.RegionCoprocessorEnvironment;
-import org.apache.hadoop.hbase.regionserver.Region;
+import org.apache.hadoop.hbase.regionserver.HRegion;
 import org.apache.hadoop.hbase.regionserver.RegionCoprocessorHost;
 import org.apache.hadoop.hbase.regionserver.RegionScanner;
 import org.apache.kylin.gridtable.StorageSideBehavior;
@@ -99,7 +99,7 @@ public class AggregateRegionObserver extends BaseRegionObserver {
         // start/end region operation & sync on scanner is suggested by the
         // javadoc of RegionScanner.nextRaw()
         // FIXME: will the lock still work when a iterator is returned? is it safe? Is readonly attribute helping here? by mhb
-        Region region = ctxt.getEnvironment().getRegion();
+        HRegion region = ctxt.getEnvironment().getRegion();
         region.startRegionOperation();
         try {
             synchronized (innerScanner) {
diff --git a/storage-hbase/src/test/java/org/apache/kylin/storage/hbase/cube/v1/filter/TestFuzzyRowFilterV2EndToEnd.java b/storage-hbase/src/test/java/org/apache/kylin/storage/hbase/cube/v1/filter/TestFuzzyRowFilterV2EndToEnd.java
index 04e2e8b..4e87093 100644
--- a/storage-hbase/src/test/java/org/apache/kylin/storage/hbase/cube/v1/filter/TestFuzzyRowFilterV2EndToEnd.java
+++ b/storage-hbase/src/test/java/org/apache/kylin/storage/hbase/cube/v1/filter/TestFuzzyRowFilterV2EndToEnd.java
@@ -44,7 +44,6 @@ import org.apache.hadoop.hbase.filter.FilterList;
 import org.apache.hadoop.hbase.filter.FilterList.Operator;
 import org.apache.hadoop.hbase.regionserver.ConstantSizeRegionSplitPolicy;
 import org.apache.hadoop.hbase.regionserver.HRegion;
-import org.apache.hadoop.hbase.regionserver.Region;
 import org.apache.hadoop.hbase.regionserver.RegionScanner;
 import org.apache.hadoop.hbase.util.Bytes;
 import org.apache.hadoop.hbase.util.Pair;
@@ -225,7 +224,7 @@ public class TestFuzzyRowFilterV2EndToEnd {
         scan.addFamily(cf.getBytes());
         scan.setFilter(filter);
         List<HRegion> regions = TEST_UTIL.getHBaseCluster().getRegions(table.getBytes());
-        Region first = regions.get(0);
+        HRegion first = regions.get(0);
         first.getScanner(scan);
         RegionScanner scanner = first.getScanner(scan);
         List<Cell> results = new ArrayList<Cell>();
-- 
2.7.2

　　安裝上述Patch文件中的內容，修改Kylin源代碼文件中的內容後，在apache-kylin-2.2.0-bin/build/script/目錄中運行package.sh腳本進行編譯打包。ide

2.2 升級HBase版本

　　因爲apache-kylin-2.2.0使用的是HBase1.1.x版本進行編譯的，若是不編譯Kylin源代碼，能夠經過升級HBase版本到1.1.x以上。好比，將CDH版的hbase-1.0.0-cdh5.4.2升級到hbase-1.2.0-cdh5.7.0版本。具體升級步驟比較簡單這裏就很少贅述了。oop

3. 實戰演練

　　在Kylin-2.2.0中，省略了不少繁瑣的配置，許多配置項都改成默認的配置屬性了。只需在$KYLIN_HOME/conf目錄中，編輯kylin.properties文件，配置以下屬性值：學習

kylin.rest.servers=0.0.0.0:7070
kylin.job.jar=/data/soft/new/kylin/lib/kylin-job-2.2.0.jar
kylin.coprocessor.local.jar=/data/soft/new/kylin/lib/kylin-coprocessor-2.2.0.jar

　　在$KYLIN_HOME/bin目錄中運行sample.sh腳本，加載批處理Cube。會在Hive倉庫中生成以下表：ui

kylin_account
kylin_cal_dt
kylin_category_groupings
kylin_country
kylin_sales

　　這裏只是演練MapReduce批處理Cube，對於Spark和Kafka這類流式數據暫不操做。能夠在$KYLIN_HOME/bin目錄編輯kylin.sh腳本，將Kafka和Spark依賴註釋掉。內容以下所示：spa

# ....

function retrieveDependency() {
    #retrive $hive_dependency and $hbase_dependency
    source ${dir}/find-hive-dependency.sh
    source ${dir}/find-hbase-dependency.sh
    source ${dir}/find-hadoop-conf-dir.sh
    #source ${dir}/find-kafka-dependency.sh
    #source ${dir}/find-spark-dependency.sh

    #retrive $KYLIN_EXTRA_START_OPTS
    if [ -f "${dir}/setenv.sh" ]; then
        echo "WARNING: ${dir}/setenv.sh is deprecated and ignored, please remove it and use ${KYLIN_HOME}/conf/setenv.sh instead"
        source ${dir}/setenv.sh
    fi

# ...

　　而後，運行check-env.sh腳本檢測Kylin系統所須要環境依賴，好比Hadoop、Hive、HBase環境變量配置。在啓動Kylin系統以前，須要將HBase的hbase-site.xml文件複製到$KYLIN_HOME/conf目錄中，並修改該文件的Zookeeper客戶端鏈接地址。在Kylin系統中，讀取hbase-site.xml配置文件中的Zookeeper客戶端地址時不須要指定2181端口，好比：以前的客戶端地址爲「dn1:2181,dn2:2181,dn3:2181」，改成「dn1,dn2,dn3」便可。3d

　　最後，執行kylin.sh start啓動Kylin系統，系統默認登陸用戶名和密碼爲ADMIN/KYLIN。

3.1 預編譯Cube

　　在Model中，選擇 kylin_sales_cube批處理Cube進行編譯，而後在Monitor模塊中查看Cube編譯的進度，以下圖所示：

　　若是在編譯Cube的過程當中可能會出現鏈接異常，以下所示：

account.jetbrains.com:10020 failed on connection exception

　　出現這類問題，是Hadoop的historyserver服務沒有啓動，執行如下命令啓動該進程服務：

mr-jobhistory-daemon.sh start historyserver

　　在編譯成功後，在Model模塊中，對應的Cube由Disable狀態編譯Ready狀態，以下圖所示：

　　從上圖中能夠知道，預編譯以後的結果是存儲在HBase中的，如表名爲：KYLIN_Y8ASHHZ0GY

　　最後，在Insight模塊中的SQL編輯區域，編寫SQL代碼查詢對應的結果，以下圖所示：

4.總結

　　在集成的過程中須要注意版本的兼容性問題。在新版本的Kylin中引入的新特性Diagnosis，若是在預編譯Cube中出現錯誤，在解決不了的狀況下，可使用Diagnosis功能，將編譯產生的結果，經過Diagnosis導出發送給Kylin官方尋求解決方式。

5.結束語

　　這篇博客就和你們分享到這裏，若是你們在研究學習的過程中有什麼問題，能夠加羣進行討論或發送郵件給我，我會盡我所能爲您解答，與君共勉。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。