Apache Spark源碼走讀之12 -- Hive on Spark運行環境搭建

時間 2019-11-13

標籤 apache spark 源碼走讀 hive 運行環境搭建欄目 Apache 简体版

原文原文鏈接

歡迎轉載，轉載請註明出處，徽滬一郎。 java

楔子

Hive是基於Hadoop的開源數據倉庫工具，提供了相似於SQL的HiveQL語言，使得上層的數據分析人員不用知道太多MapReduce的知識就能對存儲於Hdfs中的海量數據進行分析。因爲這一特性而收到普遍的歡迎。node

Hive的總體框架中有一個重要的模塊是執行模塊，這一部分是用Hadoop中MapReduce計算框架來實現，於是在處理速度上不是很是使人滿意。因爲Spark出色的處理速度，有人已經成功將HiveQL的執行利用Spark來運行，這就是已經很是聞名的Shark開源項目。linux

在Spark 1.0中，Spark自身提供了對Hive的支持。本文不許備分析Spark是如何來提供對Hive的支持的，而只着重於如何搭建Hive On Spark的測試環境。sql

安裝概覽

總體的安裝過程分爲如下幾步shell

搭建Hadoop集羣 (整個cluster由3臺機器組成，一臺做爲Master,另兩臺做爲Slave)
編譯Spark 1.0，使其支持Hadoop 2.4.0和Hive
運行Hive on Spark的測試用例 (Spark和Hadoop Namenode運行在同一臺機器)

Hadoop集羣搭建

建立虛擬機

建立基於kvm的虛擬機，利用libvirt提供的圖形管理界面，建立3臺虛擬機，很是方便。內存和ip地址分配以下express

master 2G 192.168.122.102
slave1 4G 192.168.122.103
slave2 4G 192.168.122.104

在虛擬機上安裝os的過程就略過了，我使用的是arch linux，os安裝完成以後，確保如下軟件也已經安裝apache

jdk
openssh

建立用戶組和用戶

在每臺機器上建立名爲hadoop的用戶組，添加名爲hduser的用戶，具體bash命令以下所示bash

groupadd hadoop
useradd -b /home -m -g hadoop hduser
passwd hduser

無密碼登陸

在啓動slave機器上的datanode或nodemanager的時候須要輸入用戶名密碼，爲了不每次都要輸入密碼，能夠利用以下指令建立無密碼登陸。注意是從master到slave機器的單向無密碼。框架

cd $HOME/.ssh
ssh-keygen -t dsa

將id_dsa.pub複製爲authorized_keys，而後上傳到slave1和slave2中的$HOME/.ssh目錄ssh

cp id_dsa.pub authorized_keys
#確保在slave1和slave2機器中，hduser的$HOME目錄下已經建立好了.ssh目錄
scp authorized_keys slave1:$HOME/.ssh
scp authorized_keys slave2:$HOME/.ssh

更改每臺機器上的/etc/hosts

在組成集羣的master, slave1和slave2中，向/etc/hosts文件添加以下內容

192.168.122.102 master
192.168.122.103 slave1
192.168.122.104 slave2

若是更改完成以後，能夠在master上執行ssh slave1來進行測試，若是沒有輸入密碼的過程就直接登陸入slave1就說明上述的配置成功。

下載hadoop 2.4.0

以hduser身份登陸master，執行以下指令

cd /home/hduser
wget http://mirror.esocc.com/apache/hadoop/common/hadoop-2.4.0/hadoop-2.4.0.tar.gz
mkdir yarn
tar zvxf hadoop-2.4.0.tar.gz -C yarn

修改hadoop配置文件

添加以下內容到.bashrc

export HADOOP_HOME=/home/hduser/yarn/hadoop-2.4.0
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

修改$HADOOP_HOME/libexec/hadoop-config.sh

在hadoop-config.sh文件開頭處添加以下內容

export JAVA_HOME=/opt/java

$HADOOP_CONF_DIR/yarn-env.sh

在yarn-env.sh開頭添加以下內容

export JAVA_HOME=/opt/java
export HADOOP_HOME=/home/hduser/yarn/hadoop-2.4.0
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

xml配置文件修改

文件1： $HADOOP_CONF_DIR/core-site.xml

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
  <property>
    <name>fs.default.name</name>
    <value>hdfs://master:9000</value>
  </property>
  <property>
    <name>hadoop.tmp.dir</name>
    <value>/home/hduser/yarn/hadoop-2.4.0/tmp</value>
  </property>
</configuration>

文件2: $HADOOP_CONF_DIR/hdfs-site.xml

<?xml version="1.0" encoding="UTF-8"?>
 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
 <configuration>
   <property>
     <name>dfs.replication</name>
     <value>2</value>
   </property>
   <property>
     <name>dfs.permissions</name>
     <value>false</value>
   </property>
 </configuration>

文件3: $HADOOP_CONF_DIR/mapred-site.xml

<?xml version="1.0"?>
<configuration>
 <property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
 </property>
</configuration>

文件4: $HADOOP_CONF_DIR/yarn-site.xml

<?xml version="1.0"?>
 <configuration>
  <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
  </property>
  <property>
    <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
    <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
  <property>
    <name>yarn.resourcemanager.resource-tracker.address</name>
    <value>master:8025</value>
  </property>
  <property>
    <name>yarn.resourcemanager.scheduler.address</name>
    <value>master:8030</value>
  </property>
  <property>
    <name>yarn.resourcemanager.address</name>
    <value>master:8040</value>
  </property>
 </configuration>

文件5: $HADOOP_CONF_DIR/slaves

在文件中添加以下內容

slave1
slave2

建立tmp目錄

在$HADOOP_HOME下建立tmp目錄

mkdir $HADOOP_HOME/tmp

複製yarn目錄到slave1和slave2

剛纔所做的配置文件更改發生在master機器上，將整個更改過的內容所有複製到slave1和slave2。

for target in slave1 slave2
do 
    scp -r yarn $target:~/
    scp $HOME/.bashrc $target:~/
done

批量處理是否是很爽

格式化namenode

在master機器上對namenode進行格式化

bin/hadoop namenode -format

啓動cluster集羣

sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemons.sh start datanode
sbin/yarn-daemon.sh start resourcemanager
sbin/yarn-daemons.sh start nodemanager
sbin/mr-jobhistory-daemon.sh start historyserver

注意： daemon.sh表示只在本機運行，daemons.sh表示在全部的cluster節點上運行。

驗證hadoop集羣安裝正確與否

跑一個wordcount示例，具體步驟再也不列出，可參考本系列中的第11篇

編譯Spark 1.0

Spark的編譯仍是很簡單的，全部失敗的緣由大部分能夠歸結於所依賴的jar包沒法正常下載。

爲了讓Spark 1.0支持hadoop 2.4.0和hive，請使用以下指令編譯

SPARK_HADOOP_VERSION=2.4.0 SPARK_YARN=true   SPARK_HIVE=true sbt/sbt assembly

若是一切順利將會在assembly目錄下生成 spark-assembly-1.0.0-SNAPSHOT-hadoop2.4.0.jar

建立運行包

編譯以後整個$SPARK_HOME目錄下全部的文件體積仍是很大的，大概有兩個多G。有哪些是運行的時候真正須要的呢，下面將會列出這些目錄和文件。

$SPARK_HOME/bin
$SPARK_HOME/sbin
$SPARK_HOME/lib_managed
$SPARK_HOME/conf
$SPARK_HOME/assembly/target/scala-2.10

將上述目錄的內容複製到/tmp/spark-dist，而後建立壓縮包

mkdir /tmp/spark-dist
for i in $SPARK_HOME/{bin,sbin,lib_managed,conf,assembly/target/scala-2.10}
do 
  cp -r $i /tmp/spark-dist
done
cd /tmp/
tar czvf spark-1.0-dist.tar.gz spark-dist

上傳運行包到master機器

將生成的運行包上傳到master(192.168.122.102)

scp spark-1.0-dist.tar.gz hduser@192.168.122.102:~/

運行hive on spark測試用例

通過上述重重摺磨，終於到了最爲緊張的時刻了。

以hduser身份登陸master機，解壓spark-1.0-dist.tar.gz

#after login into the master as hduser
tar zxvf spark-1.0-dist.tar.gz
cd spark-dist

更改conf/spark-env.sh

export SPARK_LOCAL_IP=127.0.0.1
export SPARK_MASTER_IP=127.0.0.1

運行最簡單的example

用bin/spark-shell指令啓動shell以後,運行以下scala代碼

val sc: SparkContext // An existing SparkContext.
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

// Importing the SQL context gives access to all the public SQL functions and implicit conversions.
import hiveContext._

hql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")
hql("LOAD DATA LOCAL INPATH 'examples/src/main/resources/kv1.txt' INTO TABLE src")

// Queries are expressed in HiveQL
hql("FROM src SELECT key, value").collect().foreach(println)

若是一切順利，最後一句hql會返回key及value