環境:ubuntu 14.04, jdk 1.6, scala 2.11.4, spark 1.1.0, hadoop 2.5.1html
一 spark 單機模式apache
部分操做參考:http://www.cnblogs.com/chenfool/p/3858930.html,我以前寫的spark 1.0.1部署ubuntu
1 安裝scala,具體操做參考我以前的博文oop
2 解壓spark1.1.0包,這裏我下載的是編譯好的包,spark-1.1.0-bin-hadoop2.4.tgz
測試
tar -zxvf spark-1.1.0-bin-hadoop2.4.tgz
3 拷貝一下conf/spark-env.sh.template文件,更名爲spark-env.sh,修改配置文件spa
export HADOOP_HOME=/opt/hadoop-2.5.1 export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export SCALA_HOME=/opt/scala-2.11.4 export SPARK_MASTER_IP=spark export JAVA_HOME=/opt/jdk1.6.0_45 SPARK_EXECUTOR_INSTANCES=4 SPARK_EXECUTOR_CORES=1 SPARK_EXECUTOR_MEMORY=1G SPARK_DRIVER_MEMORY=1G SPARK_YARN_APP_NAME="Spark 1.1.0"
4 修改conf/slaves 文件,添加slave節點的hosnamescala
spark
5 啓動spark, jps 檢查是否啓動成功code
sbin/start-all.sh
17400 Jpshtm
15569 DataNodeblog
17111 Master
15800 ResourceManager
15927 NodeManager
17333 Worker
15440 NameNode
這個列表裏包含了hadoop的相關進程,spark的進程時Master 和 Worker進程
6 運行計算PI值的測試用例
bin/run-example SparkPi
測試經過,證實部署成功
二 Yarn部署模式
其實這個模式更簡單,將單機的spark進程中止後,直接就能使用yarn來跑spark的程序了
運行wordcount程序
SPARK_JAR="/opt/spark-1.1.0-bin-hadoop2.4/lib/spark-assembly-1.1.0-hadoop2.4.0.jar" \ ./bin/spark-class org.apache.spark.deploy.yarn.Client \ --jar /opt/spark-1.1.0-bin-hadoop2.4/lib/spark-examples-1.1.0-hadoop2.4.0.jar \ --class org.apache.spark.examples.JavaWordCount \ --args hdfs://hadoop:9000/test/in/test.txt \ --num-executors 2 \ --executor-cores 1 \ --driver-memory 1024M \ --executor-memory 1000M \ --name "word count on spark"
運行計算PI值
./bin/spark-submit --class org.apache.spark.examples.SparkPi \ --master yarn-cluster \ --num-executors 1 \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \ lib/spark-examples*.jar \ 10
在hadoop的yarn頁面能看到運行結果
spark 1.1.0 的單機部署,參考我之間的博客:http://www.cnblogs.com/chenfool/p/3858930.html