實現步驟:node
1)搭建好Hadoop(版本,2.7)集羣shell
2)安裝和配置scala(版本,2.11)oop
上傳解壓scala-2.11.0.tgz—>配置 /etc/profile文件spa
配置信息以下:scala
3)在NodeManager節點(01,02,03節點)上安裝和配置Spark3d
4)進入Spark安裝目錄的Conf目錄,配置:spark-env.sh 文件xml
配置以下:blog
export JAVA_HOME=/home/software/jdk1.8進程
export SCALA_HOME=/home/software/scala-2.11.0內存
export HADOOP_HOME=/home/software/hadoop-2.7.1
export HADOOP_CONF_DIR=/home/software/hadoop-2.7.1/etc/hadoop
5)配置:slaves文件
配置以下:
hadoop01
hadoop02
hadoop03
6)在HDFS上,建立一個目錄,用來存放 spark的依賴jar包
執行: hadoop fs -mkdir /spark_jars
7)進入spark 安裝目錄的jars目錄,
執行:hadoop fs -put ./* /spark_jars
8)進入spark安裝目錄的 conf目錄,配置:spark-defaults.conf 文件
配置師例:
spark.yarn.jars=hdfs://hadoop02:9000/spark_jars/*
9)至此,完成Spark-Yarn的配置。注意:若是是用虛擬機搭建,可能會因爲虛擬機內存太小而致使啓動失敗,好比內存資源太小,yarn會直接kill掉進程致使rpc鏈接失敗。因此,咱們還須要配置Hadoop的yarn-site.xml文件,加入以下兩項配置:
yarn-site.xml配置示例:
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
10)啓動Hadoop的yarn,進入Hadoop安裝目錄的sbin目錄
執行:sh start-yarn.sh
11)啓動spark shell,進入Spark安裝目錄的bin目錄
執行:sh spark-shell --master yarn-client
而後能夠經過yarn控制檯來驗證
至於spark的使用,和以前都是同樣的。只不過資源的分配和管理是交給yarn來控制了。