1,下載Scala 2.10.4,具體下載地址:apache
http://www.scala-lang.org/download/2.10.4.html bash
在Ubuntu機器上Scala會幫助咱們自動選擇「scala-2.10.4.tgz」進行下載;分佈式
2,安裝和配置Scalaoop
咱們須要在SparkMaster、SparkWorker1以及SparkWorker2上分別安裝Scala,Scala的安裝和配置具體參考 :Spark實戰高手之路-第一章 第三步spa
http://down.51cto.com/data/1748148 scala
在每臺機器上安裝完成後能夠進行一下驗證:htm
3,下載Spark 1.0.2,具體下載地址:進程
http://www.apache.org/dyn/closer.cgi/spark/spark-1.0.2/spark-1.0.2-bin-hadoop2.tgzhadoop
4,在SparkMaster上安裝和配置Spark 1.0.2集羣
把下載後「spark-1.0.2-bin-hadoop2.tgz」解壓到「/usr/local/spark」目錄之下:
配置「~/.bashrc」,設置「SPARK_HOME」並把Spark的bin目錄加入到PATH之中,配置完成後使用source命令使配置生效。
進入spark的conf目錄:
第一步修改slaves文件,首先打開該文件:
咱們把slaves文件的內容修改成:
第二步:配置spark-env.sh
首先把spark-env.sh.template 拷貝到spark-env.sh:
打開「spark-env.sh」文件:
修改後的配置文件的內容以下所示:
5,SparkWorker1和SparkWorker2採用和SparkMaster徹底同樣的Spark安裝配置,在此再也不贅述。
6,啓動Spark分佈式集羣並查看信息。
第一步:啓動Hadoop集羣,在SparkMaster使用jps命令,具體操做過程當中能夠看到以下進程信息: