搭建hadoop/spark集羣環境

hadoop2.5.2的安裝能夠參照:html

http://blog.csdn.net/greensurfer/article/details/39450369java

jdk下載地址:node

http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.htmlshell

hadoop下載地址:apache

http://mirrors.cnnic.cn/apache/hadoop/common/vim

這篇文章中沒有說配置環境的事,我在這裏簡單說一下,爲了能使虛機啓動後環境變量就直接可用,我將jdk和hadoop直接配置到~/.bashrc文件中。bash

# set java environment
export JAVA_HOME=/usr/lib/java/jdk1.7.0_71
export SCALA_HOME=/usr/lib/scala/scala-2.11.4
export SPARK_HOME=/usr/local/spark/spark-1.2.0-bin-hadoop2.4
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin:/usr/local/hadoop/hadoop-2.5.2/bin:$SCALA_HOME/bin:$SPARK_HOME/bin

配置完成後,使用source使命令生效。oracle

除此以外,在進行配製前要前將本地的hostname和hosts進行修改oop

?spa

1
2
vim  /etc/profile
vim  /etc/hosts

對於hostname主節點修改成master,分支節點修改成slave1/slave2/salve3.........

對於hosts裏面要添加主從節點的host

?

1
2
3
master 192.168.1.3
slave1 192.168.1.10
slave2 192.168.1.20


我主要說一下spark集羣的安裝

先去scala和spark的官網下載scala-2.11.4.tgz、spark-1.2.0-bin-hadoop2.4.tgz
安裝scala
建立目錄

?

1
mkdir  /usr/lib/scala

在新建的目錄中解壓scala

?

1
tar  zxvf scala-2.11.4.tgz

將scala添加到環境變量中

?

1
vim ~/.bashrc

在文件最下面添加

?

1
2
export  SCALA_HOME= /usr/lib/scala/scala-2 .11.4
export  PATH=$PATH:$SCALA_HOME /bin

保存退出後,用source使命令生效

?

1
source  ~/.bashrc

查看scala是否安裝成功

?

1
2
[root@master scala] # scala -version
Scala code runner version 2.11.4 -- Copyright 2002-2013, LAMP /EPFL

這樣在master上就完成了scala的安裝,因爲spark要運行在master、slave一、slave2三個虛機上,因此咱們能夠用scp命令將~/.bashrc從master拷貝到slave機器上

安裝spark

建立目錄

?

1
mkdir  /usr/local/spark

將已下載的spark-1.2.0-bin-hadoop2.4.tgz解壓到此目錄中

?

1
tar  zxvf spark-1.2.0-bin-hadoop2.4.tgz

設置環境變量

?

1
vim ~/.bashrc

在文件中添加一行

?

1
export  SPARK_HOME= /usr/local/spark/spark-1 .2.0-bin-hadoop2.4

修改文件的PATH爲

?

1
export  PATH=$PATH:$SCALA_HOME /bin :$SPARK_HOME /bin

若是要把jdk和hadoop也一塊兒加入的話,那最後結果爲

?

1
2
3
4
5
6
# set java environment
export  JAVA_HOME= /usr/lib/java/jdk1 .7.0_71
export  SCALA_HOME= /usr/lib/scala/scala-2 .11.4
export  SPARK_HOME= /usr/local/spark/spark-1 .2.0-bin-hadoop2.4
export  CLASSPATH=.:$CLASSPATH:$JAVA_HOME /lib :$JAVA_HOME /jre/lib
export  PATH=$PATH:$JAVA_HOME /bin :$JAVA_HOME /jre/bin : /usr/local/hadoop/hadoop-2 .5.2 /bin :$SCALA_HOME /bin :$SPARK_HOME /bin

使用source使命令生效

?

1
source  ~/.bashrc

配製spark,進入到spark的conf目錄

?

1
[root@master scala] # cd /usr/local/spark/spark-1.2.0-bin-hadoop2.4/conf

使用cp命令複製一份spark-env.sh

?

1
  cp  spark- env .sh.template spark- env .sh

修改此文件,在文件末尾添加

?

1
2
3
4
5
6
7
8
9
10
###jdk安裝目錄
export  JAVA_HOME= /usr/lib/java/jdk1 .7.0_71
###scala安裝目錄
export  SCALA_HOME= /usr/lib/scala/scala-2 .11.4
###spark集羣的master節點的ip
export  SPARK_MASTER_IP=192.168.1.3
###指定的worker節點可以最大分配給Excutors的內存大小
export  SPARK_WORKER_MEMORY=1g
###hadoop集羣的配置文件目錄
export  HADOOP_CONF_DIR= /usr/local/hadoop/hadoop-2 .5.2 /etc/hadoop

修改conf目錄下面的slaves文件將worker節點都加進去

?

1
2
3
4
5
[root@master conf] # cat slaves
# A Spark Worker will be started on each of the machines listed below.
master
slave1
slave2

保存退出,這樣master中spark就安裝完成了,slave節點和maser同樣的設置

成功後以下圖


另外說一些實用的界面

查看spark-shell狀態

?

1
http: //master :4040 /stages/


查看sprak中worker的狀態

?

1
http: //master :8080


查看dfs(datanode)的狀態

?

1
http: //master :50070



查看nodes的狀態

?

1
http: //master :8088

相關文章
相關標籤/搜索