Spark on YARN簡介與運行wordcount(master、slave1和slave2)(博主推薦)

 

 

前期博客html

Spark on YARN模式的安裝(spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz)(master、slave1和slave2)(博主推薦) 

 Spark運行模式概述java

 

 

 

 

 

 

Spark On YARN模式node

  這是一種頗有前景的部署模式。但限於YARN自身的發展,目前僅支持粗粒度模式(Coarse-grained Mode)。這是因爲YARN上的Container資源是不能夠動態伸縮的,一旦Container啓動以後,可以使用的資源不能再發生變化,不過這個已經在YARN計劃中了。 jquery

  spark on yarn 的支持兩種模式: 
    1) yarn-cluster:適用於生產環境; 
    2) yarn-client:適用於交互、調試,但願當即看到app的輸出 shell

  yarn-cluster和yarn-client的區別在於yarn appMaster,每一個yarn app實例有一個appMaster進程,是爲app啓動的第一個container;負責從ResourceManager請求資源,獲取到資源後,告訴NodeManager爲其啓動container。yarn-cluster和yarn-client模式內部實現仍是有很大的區別。若是你須要用於生產環境,那麼請選擇yarn-cluster;而如果你僅僅是Debug程序,能夠選擇yarn-client。apache

 

 

 

 

 

YARN概述

  YARN是什麼編程

  Apache Hadoop YARN(Yet Another Resource Negotiator,另外一種資源協調者)是一種新的 Hadoop 資源管理器,它是一個通用資源管理系統,可爲上層應用提供統一的資源管理和調度,它的引入爲集羣在利用率、資源統一管理和數據共享等方面帶來了巨大好處。ruby

 

 

 

 

YARN在Hadoop生態系統中的位置網絡

 

 

 

 

YARN產生的背景架構

  隨着互聯網高速發展致使數據量劇增,MapReduce 這種基於磁盤的離線計算框架已經不能知足應用要求,從而出現了一些新的計算框架以應對各類場景,包括內存計算框架、流式計算框架和迭代式計算框架等,而MRv1 不能支持多種計算框架並存。

           

                  

 

 

 

 

 

 

YARN基本架構

        

 

 

 

 

 

ResourceManager(RM)

  ResourceManager負責集羣資源的統一管理和調度,承擔了 JobTracker 的角色,整個集羣只有「一個」,總的來講,RM有如下做用:

  1.處理客戶端請求

  2.啓動或監控ApplicationMaster

  3.監控NodeManager

  4.資源的分配與調度

 

 

NodeManager(NM)

  NodeManager管理YARN集羣中的每一個節點。NodeManager 提供針對集羣中每一個節點的服務,從監督對一個容器的終生管理到監視資源和跟蹤節點健康。MRv1 經過slot管理 Map 和 Reduce 任務的執行,而 NodeManager 管理抽象容器,這些容器表明着可供一個特定應用程序使用的針對每一個節點的資源。NM有如下做用。

  1.管理單個節點上的資源

  2.處理來自ResourceManager的命令

  3.處理來自ApplicationMaster的命令

 

 

 

 

ApplicationMaster(AM)

  每一個應用有一個,負責應用程序的管理 。ApplicationMaster 負責協調來自 ResourceManager 的資源,並經過 NodeManager 監視容器的執行和資源使用(CPU、內存等的資源分配)。請注意,儘管目前的資源更加傳統(CPU 核心、內存),但將來會支持新資源類型(好比圖形處理單元或專用處理設備)。AM有如下做用:

  1.負責數據的切分

  2.爲應用程序申請資源並分配給內部的任務

  3.任務的監控與容錯

 

 

 

Container

  Container 是 YARN 中的資源抽象,它封裝了某個節點上的多維度資源,如內存、CPU、磁盤、網絡等,當AM向RM申請資源時,RM爲AM返回的資源即是用Container表示的。YARN會爲每一個任務分配一個Container,且該任務只能使用該Container中描述的資源。

  Container有如下做用:

  對任務運行環境進行抽象,封裝CPU、內存等多維度的資源以及環境變量、啓動命令等任務運行相關的信息

 

 

 

 

 

 

 

 

 

 

 

Spark on YARN運行架構解析

  回顧Spark基本工做流程

  以SparkContext爲程序運行的總入口,在SparkContext的初始化過程當中,Spark會分別建立DAGScheduler做業調度和TaskScheduler任務調度兩級調度模塊。其中做業調度模塊是基於任務階段的高層調度模塊,它爲每一個Spark做業計算具備依賴關係的多個調度階段(一般根據shuffle來劃分),而後爲每一個階段構建出一組具體的任務(一般會考慮數據的本地性等),而後以TaskSets(任務組)的形式提交給任務調度模塊來具體執行。而任務調度模塊則負責具體啓動任務、監控和彙報任務運行狀況。

            

 

 

 

 

YARN standalone/YARN cluster

  YARN standalone是0.9及以前版本的叫法,1.0開始改名爲YARN cluster

  yarn-cluster(YarnClusterScheduler),是Driver和AM運行在一塊兒,Client單獨的。

./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] [app options]

 

 

 

 

YARN standalone/YARN cluster

  Spark Driver首選做爲一個ApplicationMaster在Yarn集羣中啓動,客戶端提交給ResourceManager的每個job都會在集羣的worker節點上分配一個惟一的ApplicationMaster,由該ApplicationMaster管理全生命週期的應用。由於Driver程序在YARN中運行,因此事先不用啓動Spark Master/Client,應用的運行結果不能再客戶端顯示(能夠在history server中查看)。

              

 

 

 

YARN standalone/YARN cluster

            

 

 

 

YARN client

  yarn-client(YarnClientClusterScheduler)

  Client和Driver運行在一塊兒(運行在本地),AM只用來管理資源

./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode client [options] [app options]

 

 

YARN client

  在Yarn-client模式下,Driver運行在Client上,經過ApplicationMaster向RM獲取資源。本地Driver負責與全部的executor container進行交互,並將最後的結果彙總。結束掉終端,至關於kill掉這個spark應用。通常來講,若是運行的結果僅僅返回到terminal上時須要配置這個。

            

 

 

如何選擇

  若是須要返回數據到client就用YARN client模式。

  數據存儲到hdfs的建議用YARN cluster模式。

 

 

 

其餘配置和注意事項

  如何更改默認配置

spark_home/conf/spark-defaults.conf,每一個app提交時都會使用他裏面的配置

--conf PROP=VALUE,爲單獨的app指定個性化參數

 

  環境變量

spark_home/conf/spark-defaults.conf,每一個app提交時都會使用他裏面的配置

spark.yarn.appMasterEnv.[EnvironmentVariableName]

 

  相關配置

      

        

 

 

特別注意

  在cluster mode下,yarn.nodemanager.local-dirs對?Spark executors 和Spark driver都管用, spark.local.dir將被忽略

  在client mode下, Spark executors 使用yarn.nodemanager.local-dirs, Spark driver使用spark.local.dir

  --files and –archives支持用#映射到hdfs

  --jars

 

 

 

 

 

 

 
 
 
 
 

spark-shell運行在YARN上(這是Spark on YARN模式)

     (包含YARN client和YARN cluster)(做爲補充)

 登錄安裝Spark那臺機器

bin/spark-shell --master yarn-client

 或者

bin/spark-shell --master yarn

   包括能夠加上其餘的,好比控制內存啊等。這很簡單,很少贅述。

 

 

複製代碼
[spark@master spark-1.6.1-bin-hadoop2.6]$ bin/spark-shell --master yarn-client 17/03/29 22:40:04 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 17/03/29 22:40:04 INFO spark.SecurityManager: Changing view acls to: spark 17/03/29 22:40:04 INFO spark.SecurityManager: Changing modify acls to: spark 17/03/29 22:40:04 INFO spark.SecurityManager: SecurityManager: authentication disabled; ui acls disabled; users with view permissions: Set(spark); users with modify permissions: Set(spark) 17/03/29 22:40:05 INFO spark.HttpServer: Starting HTTP Server 17/03/29 22:40:06 INFO server.Server: jetty-8.y.z-SNAPSHOT 17/03/29 22:40:06 INFO server.AbstractConnector: Started SocketConnector@0.0.0.0:35692 17/03/29 22:40:06 INFO util.Utils: Successfully started service 'HTTP class server' on port 35692. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 1.6.1 /_/ Using Scala version 2.10.5 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_60)
複製代碼
 
 
 
 
 
 
 
 
 
 
 
 
 

提交spark做業

一、用yarn-client模式提交spark做業

在/usr/local/spark目錄下建立文件夾

vi spark_pi.sh
複製代碼
$SPARK_HOME/bin/spark-submit \
--class org.apache.spark.examples.JavaSparkPi \ --master yarn-client \ --num-executors 1 \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \ 
$SPARK_HOME/lib/spark-examples-1.6.1-hadoop2.6.0.jar \
複製代碼

 

chmod 777 spark_pi.sh ./spark_pi.sh

 

 

或者

[spark@master ~]$  $SPARK_HOME/bin/spark-submit  \
> --class org.apache.spark.examples.JavaSparkPi \ > --master yarn-cluster \ > --num-executors 1 \ > --driver-memory 1g \ > --executor-memory 1g \ > --executor-cores 1 \ > $SPARK_HOME/lib/spark-examples-1.6.1-hadoop2.6.0.jar

 

 

 

 

二、用yarn-cluster模式提交spark做業

在/usr/local/spark目錄下建立文件夾

 

vi spark_pi.sh
$SPARK_HOME/bin/spark-submit \
--class org.apache.spark.examples.JavaSparkPi \ --master yarn-cluster \ --num-executors 1 \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \ 
$SPARK_HOME/lib/spark-examples-1.6.1-hadoop2.6.0.jar 

 

 

 chmod 777 spark_pi.sh
./spark_pi.sh

 

 

 

 或者

[spark@master ~]$  $SPARK_HOME/bin/spark-submit  \
> --class org.apache.spark.examples.JavaSparkPi \ > --master yarn-cluster \ > --num-executors 1 \ > --driver-memory 1g \ > --executor-memory 1g \ > --executor-cores 1 \ > $SPARK_HOME/lib/spark-examples-1.6.1-hadoop2.6.0.jar
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 Spark Standalone 下運行wordcount和Spark on YARN下運行wordcount(作個對比)

 一、Spark on YARN下運行wordcount

  具體,請移步

Spark編程環境搭建(基於Intellij IDEA的Ultimate版本)(包含Java和Scala版的WordCount)(博主強烈推薦)

 

 

● wordcount代碼

● mvn 項目打包上傳至Spark集羣。

● Spark 集羣提交做業

[spark@master hadoop-2.6.0]$ $HADOOP_HOME/bin/hadoop fs -mkdir -p hdfs://master:9000/testspark/inputData/wordcount

[spark@master ~]$ mkdir -p /home/spark/testspark/inputData/wordcount
[spark@master hadoop-2.6.0]$ $HADOOP_HOME/bin/hadoop fs -copyFromLocal /home/spark/testspark/inputData/wordcount/wc.txt  hdfs://master:9000/testspark/inputData/wordcount/

   這裏在/home/spark/testspark下上傳mySpark-1.0-SNAPSHOT.jar省略

 

 

[spark@master spark-1.6.1-bin-hadoop2.6]$ $SPARK_HOME/bin/spark-submit \
--master yarn-client \
--name scalawordcount \ --num-executors 1 \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \
--class zhouls.bigdata.MyScalaWordCount \
/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \
hdfs://master:9000/testspark/inputData/wordcount/wc.txt \
hdfs:
//master:9000/testspark/outData/MyScalaWordCount


或者
[spark@master spark-1.6.1-bin-hadoop2.6]$ $SPARK_HOME/bin/spark-submit \
--master yarn\
--deploy-mode client \
--name scalawordcount \ --num-executors 1 \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \
--class zhouls.bigdata.MyScalaWordCount \
/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \
hdfs://master:9000/testspark/inputData/wordcount/wc.txt \
hdfs://master:9000/testspark/outData/MyScalaWordCount



[spark@master spark-1.6.1-bin-hadoop2.6]$ $SPARK_HOME/bin/spark-submit \
 --master yarn-cluster\
--name scalawordcount \ --num-executors 1 \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \
--class zhouls.bigdata.MyScalaWordCount \
/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \
hdfs://master:9000/testspark/inputData/wordcount/wc.txt \
hdfs://master:9000/testspark/outData/MyScalaWordCount



或者

[spark@master spark-1.6.1-bin-hadoop2.6]$ $SPARK_HOME/bin/spark-submit \
--master yarn\
--deploy-mode cluster \
--name scalawordcount \ --num-executors 1 \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \
--class zhouls.bigdata.MyScalaWordCount \
/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \
hdfs://master:9000/testspark/inputData/wordcount/wc.txt \
hdfs://master:9000/testspark/outData/MyScalaWordCount

 

 

 

 

 

 
[spark@master spark-1.6.1-bin-hadoop2.6]$ $SPARK_HOME/bin/spark-submit \
--master yarn-client \
--name javawordcount \ --num-executors 1 \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \
--class zhouls.bigdata.MyJavaWordCount \
/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \
hdfs://master:9000/testspark/inputData/wordcount/wc.txt \
hdfs://master:9000/testspark/outData/
MyJavaWordCount



或者
[spark@master spark-1.6.1-bin-hadoop2.6]$ $SPARK_HOME/bin/spark-submit \
--master yarn\
--deploy-mode client \
--name javawordcount \ --num-executors 1 \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \
--class zhouls.bigdata.MyJavaWordCount \
/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \
hdfs://master:9000/testspark/inputData/wordcount/wc.txt \
hdfs://master:9000/testspark/outData/MyJavaWordCount



[spark@master spark-1.6.1-bin-hadoop2.6]$ $SPARK_HOME/bin/spark-submit \
 --master yarn-cluster\
--name javawordcount \ --num-executors 1 \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \
--class zhouls.bigdata.MyJavaWordCount \
/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \
hdfs://master:9000/testspark/inputData/wordcount/wc.txt \
hdfs://master:9000/testspark/outData/
MyJavaWordCount




或者

[spark@master spark-1.6.1-bin-hadoop2.6]$ $SPARK_HOME/bin/spark-submit \
--master yarn\
--deploy-mode cluster \
--name javawordcount \ --num-executors 1 \ --driver-memory 1g \ --executor-memory 1g \ --executor-cores 1 \
--class zhouls.bigdata.MyJavaWordCount \
/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \
hdfs://master:9000/testspark/inputData/wordcount/wc.txt \
hdfs://master:9000/testspark/outData/
MyJavaWordCount



 
 
 
 
 
 

 二、Spark Standalone 下運行wordcount

具體,請移步

Spark編程環境搭建(基於Intellij IDEA的Ultimate版本)(包含Java和Scala版的WordCount)(博主強烈推薦)

 

 

● wordcount代碼

● mvn 項目打包上傳至Spark集羣。

● Spark 集羣提交做業

$SPARK_HOME/bin/spark-submit \

--master spark://master:7077 \
--class zhouls.bigdata.MyScalaWordCount \
/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \
hdfs://master:9000/testspark/inputData/wordcount/wc.txt \
hdfs://master:9000/testspark/outData/MyScalaWordCount

 

 或者

$SPARK_HOME/bin/spark-submit \
--master spark://master:7077 \
--class zhouls.bigdata.MyJavaWordCount \/home/spark/testspark/mySpark-1.0-SNAPSHOT.jar \hdfs://master:9000/testspark/inputData/wordcount/wc.txt \hdfs://master:9000/testspark/outData/MyJavaWordCount
相關文章
相關標籤/搜索