spark on yarn 安裝筆記

時間 2019-12-14

標籤 spark yarn 安裝筆記欄目 Spark 简体版

原文原文鏈接

yarn版本：hadoop2.7.0html

spark版本：spark1.4.0apache

0.前期環境準備：app

　　jdk 1.8.0_45maven

　　hadoop2.7.0oop

　　Apache Maven 3.3.3學習

1.編譯spark on yarnui

　　下載地址：http://mirrors.cnnic.cn/apache/spark/spark-1.4.1/spark-1.4.1.tgzspa

　　解壓後進入spark-1.4.1.net

　　執行以下命令，Setting up Maven’s Memory Usagecode

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

　　編譯spark，使其支持yarn

mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.0 -DskipTests clean package

　　編譯會進行很長時間，期間maven會下載不少東西，還會輸出不少warning，通常warning不會有影響，編譯成功後會顯示build success。

3.添加環境變量

export HADOOP_HOME=your hadoop dir
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_CONF_DIR=HADOOP_HOME/etc/hadoop
export YARN_HOME=$HADOOP_HOME
export YARN_CONF_DIR=HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_CONF_DIR
export SPARK_HOME=your spark dir
export PATH=$PATH:$SPARK_HOME/bin

4.執行例子程序，計算pi

　　向yarn提交任務執行程序的格式

$ ./bin/spark-submit --class path.to.your.Class --master yarn-cluster [options] <app jar> [app options】

　　所以執行計算pi的例子程序格式以下：

bin/spark-submit \
--class org.apache.spark.examples.SparkPi    \
--master yarn-cluster    \
--num-executors 3     \     #執行任務的節點數
--driver-memory 4g     \
--executor-memory 2g    \
--executor-cores 1  \
examples/target/spark-examples_2.10-1.4.0.jar 10