centos7安裝spark(僞分佈式)node
spark是由scala語言開發的,首先須要安裝scala.vim
Scala安裝centos
下載scala-2.11.8,(與spark版本要對應)瀏覽器
命令:wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz分佈式
解壓到文件夾並配置環境變量oop
vim /etc/profile測試
#scalaui
export SCALA_HOME=/home/zck/software/scalacentos7
export PATH=$PATH:$SCALA_HOME/binspa
使配置文件生效
測試:scala -version
配置僞分佈式spark;
解壓到文件夾並配置環境變量
vim /etc/profile
末尾添加如下內容
#spark
export SPARK_HOME=/home/zck/software/spark
export PATH=$SPARK_HOME/bin:$PATH測試
修改配置文件spark/conf/spark-env.sh
加入內容
export JAVA_HOME=/home/zck/software/jdk
export SCALA_HOME=/home/zck/software/scala
export HADOOP_HOME=/home/zck/software/hadoop
export HADOOP_CONF_DIR=/home/zck/software/hadoop/etc/hadoop
export SPARK_MASTER_IP=192.168.13.101
export SPARK_MASTER_PORT=7077
啓動spark服務
進入spark文件夾,sbin/start-all.sh
而後再去瀏覽器看看
Spark yarn模式配置
一、修改hadoop配置文件yarn-site.xml,添加以下內容:
<!--是否啓動一個線程檢查每一個任務正使用的物理內存量,若是任務超出分配值,則直接將其殺掉,默認是true -->
<property>
<name>yarn.nodemanager.pmem-check-enabled</name>
<value>false</value>
</property>
<!--是否啓動一個線程檢查每一個任務正使用的虛擬內存量,若是任務超出分配值,則直接將其殺掉,默認是true -->
<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
二、修改spark-env.sh,添加以下配置:
export YARN_CONF_DIR=/opt/module/hadoop-2.7.2/etc/hadoop
三、日誌配置
修改配置文件spark-defaults.conf
添加以下內容:
spark.yarn.historyServer.address=hadoop102:18080
spark.history.ui.port=18080
四、重啓spark歷史服務
sbin/stop-history-server.sh
sbin/start-history-server.sh
模式 |
Spark安裝機器數 |
需啓動的進程 |
所屬者 |
Local |
1 |
無 |
Spark |
Standalone |
3 |
Master及Worker |
Spark |
Yarn |
1 |
Yarn及HDFS |
Hadoop |