一、spark 官網選擇對應Hadoop的版本,以前安裝的Hadoop版本爲hadoop-3.0.2,獲取下載包:
wget http://mirrors.hust.edu.cn/apache/spark/spark-2.4.0/spark-2.4.0-bin-hadoop2.7.tgz
二、解壓縮安裝包,建立軟鏈接:
tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz
ln -s spark-2.4.0-bin-hadoop2.7 spark
三、配置spark,進入conf目錄:
1)、配置spark-env.sh 文件
先拷貝:cp spark-env.sh.template spark-env.sh
文件增長內容以下:
export JAVA_HOME=/usr/local/src/jdk1.8.0_191 #Java環境變量
export SCALA_HOME=/usr/local/src/scala/scala-2.12.7 #SCALA環境變量
export SPARK_WORKING_MEMORY=521m #每個worker節點上可用的最大內存
export SPARK_MASTER_IP=master #驅動器節點IP
export HADOOP_HOME=/usr/local/src/hadoop-3.0.2 #Hadoop路徑
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop #Hadoop配置目錄
2)、配置slave主機
先拷貝:cp slaves.template slaves
文件中增長slave節點名稱:
slave1
slave2
3)、將spark 目錄發送給salve1和slave2
scp -r spark root@slave1:/usr/local/src/
scp -r spark root@slave2:/usr/local/src/
4)、啓動spark
cd sbin目錄,執行./start-all.sh
5)、節點啓動了worker進程