zeppelin on CDH及配置spark查詢hive表

時間 2019-11-17

標籤 zeppelin cdh 配置 spark 查詢 hive 欄目 Spark 简体版

原文原文鏈接

1.下載zeppelinhtml

http://zeppelin.apache.org/download.html 前端

我下載的是796MB的那個已經編譯好的，若是須要本身按照環境編譯也能夠，可是要很長時間編譯，這個版本包含了不少插件，我雖然是CDH環境可是這個也可使用。java

2.修改配置文件node

cd /zeppelin-0.7.3-bin-all/confpython

cp zeppelin-env.sh.template zeppelin-env.shmysql

cp zeppelin-site.xml.template zeppelin-site.xmllinux

vim zeppelin-env.shgit

添加配置以下：個人是spark2用不了spark1.6版本這個版本的zeppelingithub

export HIVE_HOME=/opt/cloudera/parcels/CDH-5.9.0-1.cdh5.9.0.p0.23/lib/hive
export JAVA_HOME=/usr/java/jdk1.8.0_121
export MASTER=yarn-client
export ZEPPELIN_JAVA_OPTS="-Dmaster=yarn-client -Dspark.yarn.jar=/home/zeppelin-0.7.3-bin-all/interpreter/spark/zeppelin-spark_2.11-0.7.3.jar"
export DEFAULT_HADOOP_HOME=/opt/cloudera/parcels/CDH-5.9.0-1.cdh5.9.0.p0.23/lib/hadoop
export SPARK_HOME=/data/parcels/cloudera/parcels/SPARK2/lib/spark2
#export SPARK_HOME=/opt/cloudera/parcels/CDH-5.9.0-1.cdh5.9.0.p0.23/lib/spark
export HADOOP_HOME=${HADOOP_HOME:-$DEFAULT_HADOOP_HOME}
if [ -n "$HADOOP_HOME" ]; then
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:${HADOOP_HOME}/lib/native
fi
export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-/etc/hadoop/conf}web

export ZEPPELIN_LOG_DIR=/var/log/zeppelin
export ZEPPELIN_PID_DIR=/var/run/zeppelin
export ZEPPELIN_WAR_TEMPDIR=/var/tmp/zeppelin

3.配置這些其實已經足夠了。

在啓動

./zeppelin-daemon.sh start

4.在界面上配置就可使用了hive的配置這個

添加依賴：

這些就能夠查詢hive了

5.用spark讀取hive表這個比直接查詢hive錶快十倍

我把hive的配置文件hive-site.xml拷貝到hadoop_home/conf

添加須要的依賴

%dep
z.load("org.apache.hive:hive-jdbc:0.14.0")
z.load("org.apache.hadoop:hadoop-common:2.6.0")
z.load("/home/gl/hive-hcatalog-core-1.1.0-cdh5.9.0.jar")

%spark
import java.util.Properties
import org.apache.spark.sql.SparkSession
import org.apache.spark.SparkConf

val sparkConf = new SparkConf().setAppName("hive")
val spark = SparkSession.builder().config(sparkConf).enableHiveSupport().getOrCreate()

val connectionProperties = new Properties()
connectionProperties.put("user", "")
connectionProperties.put("password", "")
connectionProperties.put("driver", "org.apache.hive.jdbc.HiveDriver")
val jdbcDF2 = spark.read
  .jdbc("jdbc:hive2://*******:****/test", "bbb", connectionProperties)//.createTempView("bbb")

   spark.sql("select count(*) from pc_db.pc_txt group by responseset").show()

.修改登錄zeeplin驗證方式
禁止匿名訪問

Zeppelin啓動默認是匿名（anonymous）模式登陸的．若是設置訪問登陸權限，須要設置conf/zeppelin-site.xml文件下的zeppelin.anonymous.allowed選項爲false（默認爲true）．若是你尚未這個文件，只需將conf/zeppelin-site.xml.template複製爲conf/zeppelin-site.xml

<property>
<name>zeppelin.anonymous.allowed</name>
<value>false</value>
<description>Anonymous user allowed by default</description>
</property>
a)開啓Shiro

在剛安裝完畢以後，默認狀況下，在conf中，將找到shiro.ini.template，該文件是一個配置示例，建議你經過執行以下命令行建立shiro.ini文件:

cp conf/shiro.ini.template conf/shiro.ini
[users]
#admin = password1, admin
#user1 = password2, role1, role2
#user2 = password3, role3
#user3 = password4, role2

hadoop = hadoop, admin # 用戶名、密碼都是hadoop，角色爲admin
bin/zeppelin-daemon.sh restart

2.How to do

　　首先，咱們來了解一下這款工具的背景及用途。Zeppelin 目前已託管於 Apache 基金會，但並未列爲頂級項目，能夠在其公佈的官網訪問。它提供了一個很是友好的 WebUI 界面，操做相關指令。它能夠用於作數據分析和可視化。其後面能夠接入不一樣的數據處理引擎。包括 Flink，Spark，Hive 等。支持原生的 Scala，Shell，Markdown 等。

2.1 Install

　　對於 Zeppelin 而言，並不依賴 Hadoop 集羣環境，咱們能夠部署到單獨的節點上進行使用。首先咱們使用如下地址獲取安裝包：

http://zeppelin.incubator.apache.org/download.html

　　這裏，有2種選擇，其一，能夠下載原文件，自行編譯安裝。其二，直接下載二進制文件進行安裝。這裏，爲了方便，筆者直接使用二進制文件進行安裝使用。這裏有些參數須要進行配置，爲了保證系統正常啓動，確保的 zeppelin.server.port 屬性的端口不被佔用，默認是8080，其餘屬性你們可按需配置便可。［配置連接］

2.2 Start/Stop

　　在完成上述步驟後，啓動對應的進程。定位到 Zeppelin 安裝目錄的bin文件夾下，使用如下命令啓動進程：

./zeppelin-daemon.sh start

　　若須要中止，可使用如下命令中止進程：

./zeppelin-daemon.sh stop

　　另外，經過閱讀 zeppelin-daemon.sh 腳本的內容，能夠發現，咱們還可使用相關重啓，查看狀態等命令。內容以下：

case "${1}" in
  start)
    start
    ;;
  stop)
    stop
    ;;
  reload)
    stop
    start
    ;;
  restart)
    stop
    start
    ;;
  status)
    find_zeppelin_process
    ;;
  *)
    echo ${USAGE}

3.How to use

　　在啓動相關進程後，可使用如下地址在瀏覽器中訪問：

http://<Your_<IP/Host>:Port>

　　啓動以後的界面以下所示：

　　該界面羅列出插件綁定項。如圖中的 spark，md，sh 等。那我如何使用這些來完成一些工做。在使用一些數據引擎時，如 Flink，Spark，Hive 等，是須要配置對應的鏈接信息的。在 Interpreter 欄處進行配置。這裏給你們列舉一些配置示例：

3.1 Flink

　　能夠找到 Flink 的配置項，以下圖所示：

　　而後指定對應的 IP 和地址便可。

3.2 Hive

　　這裏 Hive 配置須要指向其 Thrift 服務地址，以下圖所示：

　　另外，其餘的插件，如 Spark，Kylin，phoenix等配置相似，配置完成後，記得點擊「restart」按鈕。

3.3 Use md and sh

　　下面，咱們能夠建立一個 Notebook 來使用，咱們拿最簡單的 Shell 和 Markdown 來演示，以下圖所示：

3.4 SQL

　　固然，咱們的目的並非僅僅使用 Shell 和 Markdown，咱們須要可以使用 SQL 來獲取咱們想要的結果。

3.4.1 Spark SQL

　　下面，咱們使用 Spark SQL 去獲取想要的結果。以下圖所示：

　　這裏，能夠將結果以不一樣的形式來可視化，量化，趨勢，一目瞭然。

3.4.2 Hive SQL

　　另外，可使用動態格式來查詢分區數據，以"${partition_col=20160101,20160102|20160103|20160104|20160105|20160106}"的格式進行表示。以下圖所示：

3.5 Video Guide

　　另外，官方也給出了一個快速指導的入門視頻，觀看地址：[入口]

4.總結

　　在使用的過程中，有些地方須要注意，必須在編寫 Hive SQL 時，%hql 須要替換爲 %hive.sql 的格式；另外，在運行 Scala 代碼時，若是出現如下異常，以下圖所示：

　　解決方案，在 zeppelin-env.sh 文件中添加如下內容：

export ZEPPELIN_MEM=-Xmx4g

　　該 BUG 在 0.5.6 版本獲得修復，參考碼：［ZEPPELIN-305］

5、Hue、Zeppelin比較
上一節簡單介紹了Hue這種Hadoop生態圈的數據可視化組件，本節討論另外一種相似的產品——Zeppelin。首先介紹一下Zeppelin，而後說明其安裝的詳細步驟，以後演示如何在Zeppelin中添加MySQL翻譯器，最後從功能、架構、使用場景幾方面將Hue和Zeppelin作一個比較。
1. Zeppelin簡介
Zeppelin是一個基於Web的軟件，用於交互式地數據分析。一開始是Apache軟件基金會的孵化項目，2016年5月正式成爲一個頂級項目（Top-Level Project，TLP）。Zeppelin描述本身是一個能夠進行數據攝取、數據發現、數據分析、數據可視化的筆記本，用以幫助開發者、數據科學家以及相關用戶更有效地處理數據，而沒必要使用複雜的命令行，也沒必要關心集羣的實現細節。Zeppelin的架構圖以下所示。

從圖中能夠看到，Zeppelin具備客戶端/服務器架構，客戶端通常就是指瀏覽器。服務器接收客戶端的請求，並將請求經過Thrift協議發送給翻譯器組。翻譯器組物理表現爲JVM進程，負責實際處理客戶端的請求並與服務器進行通訊。
翻譯器是一個插件式的體系結構，容許任何語言/後端數據處理程序以插件的形式添加到Zeppelin中。特別須要指出的是，Zeppelin內建Spark翻譯器，所以不須要構建單獨的模塊、插件或庫。Spark翻譯器的架構圖以下所示。

        當前的Zeppelin已經支持不少翻譯器，如Zeppelin 0.6.0版本自帶的翻譯器有alluxio、cassandra、file、hbase、ignite、kylin、md、phoenix、sh、tajo、angular、elasticsearch、flink、hive、jdbc、lens、psql、spark等18種之多。插件式架構容許用戶在Zeppelin中使用本身熟悉的特定程序語言或數據處理方式。例如，經過使用%spark翻譯器，能夠在Zeppelin中使用Scala語言代碼。
        在數據可視化方面，Zeppelin已經包含一些基本的圖表，如柱狀圖、餅圖、線形圖、散點圖等，任何後端語言的輸出均可以被圖形化表示。
        用戶創建的每個查詢叫作一個note，note的URL在多用戶間共享，Zeppelin將向全部用戶實時廣播note的變化。Zeppelin還提供一個只顯示查詢結果的URL，該頁不包括任何菜單和按鈕。用這種方式能夠方便地將結果頁做爲一幀嵌入到本身的web站點中。

2. Zeppelin安裝配置
下面用一個典型的使用場景——使用Zeppelin運行SparkSQL訪問Hive表，在一個實驗環境上說明Zeppelin的安裝配置步驟。
（1）安裝環境
12個節點的Spark集羣，以standalone方式部署，各個節點運行的進程以下表所示。
主機名

運行進程

nbidc-agent-03

NameNode、Spark Master

nbidc-agent-04

SecondaryNameNode

nbidc-agent-11

ResourceManager、DataNode、NodeManager、Spark Worker

nbidc-agent-12