hadoop2.5.2的安裝能夠參照:html
http://blog.csdn.net/greensurfer/article/details/39450369java
jdk下載地址:node
http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.htmlshell
hadoop下載地址:apache
http://mirrors.cnnic.cn/apache/hadoop/common/vim
這篇文章中沒有說配置環境的事,我在這裏簡單說一下,爲了能使虛機啓動後環境變量就直接可用,我將jdk和hadoop直接配置到~/.bashrc文件中。bash
# set java environment export JAVA_HOME=/usr/lib/java/jdk1.7.0_71 export SCALA_HOME=/usr/lib/scala/scala-2.11.4 export SPARK_HOME=/usr/local/spark/spark-1.2.0-bin-hadoop2.4 export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin:/usr/local/hadoop/hadoop-2.5.2/bin:$SCALA_HOME/bin:$SPARK_HOME/bin
配置完成後,使用source使命令生效。oracle
除此以外,在進行配製前要前將本地的hostname和hosts進行修改oop
?spa
1
2
|
vim
/etc/profile
vim
/etc/hosts
|
對於hostname主節點修改成master,分支節點修改成slave1/slave2/salve3.........
對於hosts裏面要添加主從節點的host
1
2
3
|
master 192.168.1.3
slave1 192.168.1.10
slave2 192.168.1.20
|
我主要說一下spark集羣的安裝
先去scala和spark的官網下載scala-2.11.4.tgz、spark-1.2.0-bin-hadoop2.4.tgz
安裝scala
建立目錄
1
|
mkdir
/usr/lib/scala
|
在新建的目錄中解壓scala
1
|
tar
zxvf scala-2.11.4.tgz
|
將scala添加到環境變量中
1
|
vim ~/.bashrc
|
在文件最下面添加
1
2
|
export
SCALA_HOME=
/usr/lib/scala/scala-2
.11.4
export
PATH=$PATH:$SCALA_HOME
/bin
|
保存退出後,用source使命令生效
1
|
source
~/.bashrc
|
查看scala是否安裝成功
1
2
|
[root@master scala]
# scala -version
Scala code runner version 2.11.4 -- Copyright 2002-2013, LAMP
/EPFL
|
這樣在master上就完成了scala的安裝,因爲spark要運行在master、slave一、slave2三個虛機上,因此咱們能夠用scp命令將~/.bashrc從master拷貝到slave機器上
安裝spark
建立目錄
1
|
mkdir
/usr/local/spark
|
將已下載的spark-1.2.0-bin-hadoop2.4.tgz解壓到此目錄中
1
|
tar
zxvf spark-1.2.0-bin-hadoop2.4.tgz
|
設置環境變量
1
|
vim ~/.bashrc
|
在文件中添加一行
1
|
export
SPARK_HOME=
/usr/local/spark/spark-1
.2.0-bin-hadoop2.4
|
修改文件的PATH爲
1
|
export
PATH=$PATH:$SCALA_HOME
/bin
:$SPARK_HOME
/bin
|
若是要把jdk和hadoop也一塊兒加入的話,那最後結果爲
1
2
3
4
5
6
|
# set java environment
export
JAVA_HOME=
/usr/lib/java/jdk1
.7.0_71
export
SCALA_HOME=
/usr/lib/scala/scala-2
.11.4
export
SPARK_HOME=
/usr/local/spark/spark-1
.2.0-bin-hadoop2.4
export
CLASSPATH=.:$CLASSPATH:$JAVA_HOME
/lib
:$JAVA_HOME
/jre/lib
export
PATH=$PATH:$JAVA_HOME
/bin
:$JAVA_HOME
/jre/bin
:
/usr/local/hadoop/hadoop-2
.5.2
/bin
:$SCALA_HOME
/bin
:$SPARK_HOME
/bin
|
使用source使命令生效
1
|
source
~/.bashrc
|
配製spark,進入到spark的conf目錄
1
|
[root@master scala]
# cd /usr/local/spark/spark-1.2.0-bin-hadoop2.4/conf
|
使用cp命令複製一份spark-env.sh
1
|
cp
spark-
env
.sh.template spark-
env
.sh
|
修改此文件,在文件末尾添加
1
2
3
4
5
6
7
8
9
10
|
###jdk安裝目錄
export
JAVA_HOME=
/usr/lib/java/jdk1
.7.0_71
###scala安裝目錄
export
SCALA_HOME=
/usr/lib/scala/scala-2
.11.4
###spark集羣的master節點的ip
export
SPARK_MASTER_IP=192.168.1.3
###指定的worker節點可以最大分配給Excutors的內存大小
export
SPARK_WORKER_MEMORY=1g
###hadoop集羣的配置文件目錄
export
HADOOP_CONF_DIR=
/usr/local/hadoop/hadoop-2
.5.2
/etc/hadoop
|
修改conf目錄下面的slaves文件將worker節點都加進去
1
2
3
4
5
|
[root@master conf]
# cat slaves
# A Spark Worker will be started on each of the machines listed below.
master
slave1
slave2
|
保存退出,這樣master中spark就安裝完成了,slave節點和maser同樣的設置
成功後以下圖
另外說一些實用的界面
查看spark-shell狀態
1
|
http:
//master
:4040
/stages/
|
查看sprak中worker的狀態
1
|
http:
//master
:8080
|
查看dfs(datanode)的狀態
1
|
http:
//master
:50070
|
查看nodes的狀態
1
|
http:
//master
:8088
|