爲了方便使用Spark的同窗提交任務以及增強任務管理等緣由,經調研採用Livy比較靠譜,下圖大體羅列一下幾種提交平臺的差異。html
本文會以基於mac的單機環境搭建一套Spark+Livy+Hadoop來展現如何提交任務運行,本文只針對框架可以運行起來,至於各個組件參數怎麼配置性能更好,各位兄弟就自行找度娘了。java
一.搭建Sparknode
訪問http://spark.apache.org/downloads.html下載安裝包,而後按照如下步驟操做便可。apache
1.下載完成後解壓到某個目錄下,在該目錄執行如下命令vim
tar zxvf spark-2.1.0-hadoop2.7.tgz框架
2.配置Spark環境變量oop
Mac環境變量通常在/etc/profile下配置,打開profile文件在文件中添加。性能
#SPARK VARIABLES START測試
export SPARK_HOME =/usr/local/spark-2.1.0-hadoop2.7lua
export PATH = ${PATH}:${SPARK_HOME}/bin
#SPARK VARIABLES END
3.配置Java環境
一樣在/etc/profile下配置。在此以前已經安裝scala和jdk相關環境。將java安裝目錄添加到裏面export JAVA_HOME =/Library/java/javaVirtualMachines/jdk1.8.0_111.jdk/COntents/Home 設置完成後,保存退出,最後使用source /etc/profile 使環境變量生效。
4.執行sbin/start-all.sh,啓動spark
5.測試
打開終端,輸入pyspark,出現下面的畫面即表示安裝成功。
二.Livy安裝
1.去https://www.apache.org/dyn/closer.lua/incubator/livy/0.6.0-incubating/apache-livy-0.6.0-incubating-bin.zip下載安裝包。
2.解壓安裝包,而且編輯livy.conf,添加紅框中的參數便可。
而後編輯livy-env.sh,添加Spark的安裝目錄配置。
3.最後bin/livy-server start啓動Livy便可
三.Hadoop安裝
1.去https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/下載安裝包,並解壓
2.修改各類配置,vim core-site.xml,修改成
修改hdfs-site.xml爲
3.配置環境變量
export HADOOP_HOME=/User/deploy/software/hadoop/hadoop-2.8.5
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export CLASSPATH=$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_COMMON_LIB_NATIVE_DIR"
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
4.格式化節點
5.執行sbin/start-all.sh啓動Hadoop,出現如下界面說明安裝成功
yarn和hadoop安裝是一體的,訪問判斷yarn是否安裝成功
6.若是datanode沒有啓動成功,就去配置的NameNode下的current/VERSION中的clusterID複製到DataNode下的VERSION便可。
四.開發代碼提交任務
經過上面的步驟基礎環境就已經搭建好,接着就是開發接口提交任務。部分代碼截圖以下:
五.關注公衆號獲取源碼