Spark: 基本架構及原理

 Apache Spark是一個圍繞速度、易用性和複雜分析構建的大數據處理框架,最初在2009年由加州大學伯克利分校的AMPLab開發,並於2010年成爲Apache的開源項目之一,與Hadoop和Storm等其餘大數據和MapReduce技術相比,Spark有以下優點:node

  • Spark提供了一個全面、統一的框架用於管理各類有着不一樣性質(文本數據、圖表數據等)的數據集和數據源(批量數據或實時的流數據)的大數據處理的需求
  • 官方資料介紹Spark能夠將Hadoop集羣中的應用在內存中的運行速度提高100倍,甚至可以將應用在磁盤上的運行速度提高10倍

 目標:web

  • 架構及生態
  • spark 與 hadoop
  • 運行流程及特色
  • 經常使用術語
  • standalone模式
  • yarn集羣
  • RDD運行流程

架構及生態:算法

  • 一般當須要處理的數據量超過了單機尺度(好比咱們的計算機有4GB的內存,而咱們須要處理100GB以上的數據)這時咱們能夠選擇spark集羣進行計算,有時咱們可能須要處理的數據量並不大,可是計算很複雜,須要大量的時間,這時咱們也能夠選擇利用spark集羣強大的計算資源,並行化地計算,其架構示意圖以下:
  • Spark Core:包含Spark的基本功能;尤爲是定義RDD的API、操做以及這二者上的動做。其餘Spark的庫都是構建在RDD和Spark Core之上的
  • Spark SQL:提供經過Apache Hive的SQL變體Hive查詢語言(HiveQL)與Spark進行交互的API。每一個數據庫表被當作一個RDD,Spark SQL查詢被轉換爲Spark操做。
  • Spark Streaming:對實時數據流進行處理和控制。Spark Streaming容許程序可以像普通RDD同樣處理實時數據
  • MLlib:一個經常使用機器學習算法庫,算法被實現爲對RDD的Spark操做。這個庫包含可擴展的學習算法,好比分類、迴歸等須要對大量數據集進行迭代的操做。
  • GraphX:控制圖、並行圖操做和計算的一組算法和工具的集合。GraphX擴展了RDD API,包含控制圖、建立子圖、訪問路徑上全部頂點的操做
  • Spark架構的組成圖以下:
  • Cluster Manager:在standalone模式中即爲Master主節點,控制整個集羣,監控worker。在YARN模式中爲資源管理器
  • Worker節點:從節點,負責控制計算節點,啓動Executor或者Driver。
  • Driver: 運行Application 的main()函數
  • Executor:執行器,是爲某個Application運行在worker node上的一個進程

Spark與hadoop:shell

  • Hadoop有兩個核心模塊,分佈式存儲模塊HDFS和分佈式計算模塊Mapreduce
  • spark自己並無提供分佈式文件系統,所以spark的分析大多依賴於Hadoop的分佈式文件系統HDFS
  • Hadoop的Mapreduce與spark均可以進行數據計算,而相比於Mapreduce,spark的速度更快而且提供的功能更加豐富
  • 關係圖以下:

 運行流程及特色:數據庫

  • spark運行流程圖以下:
  1. 構建Spark Application的運行環境,啓動SparkContext
  2. SparkContext向資源管理器(能夠是Standalone,Mesos,Yarn)申請運行Executor資源,並啓動StandaloneExecutorbackend,
  3. Executor向SparkContext申請Task
  4. SparkContext將應用程序分發給Executor
  5. SparkContext構建成DAG圖,將DAG圖分解成Stage、將Taskset發送給Task Scheduler,最後由Task Scheduler將Task發送給Executor運行
  6. Task在Executor上運行,運行完釋放全部資源

     Spark運行特色:多線程

  1. 每一個Application獲取專屬的executor進程,該進程在Application期間一直駐留,並以多線程方式運行Task。這種Application隔離機制是有優點的,不管是從調度角度看(每一個Driver調度他本身的任務),仍是從運行角度看(來自不一樣Application的Task運行在不一樣JVM中),固然這樣意味着Spark Application不能跨應用程序共享數據,除非將數據寫入外部存儲系統
  2. Spark與資源管理器無關,只要可以獲取executor進程,並能保持相互通訊就能夠了
  3. 提交SparkContext的Client應該靠近Worker節點(運行Executor的節點),最好是在同一個Rack裏,由於Spark Application運行過程當中SparkContext和Executor之間有大量的信息交換
  4. Task採用了數據本地性和推測執行的優化機制

經常使用術語:架構

  • Application: Appliction都是指用戶編寫的Spark應用程序,其中包括一個Driver功能的代碼和分佈在集羣中多個節點上運行的Executor代碼
  • Driver:  Spark中的Driver即運行上述Application的main函數並建立SparkContext,建立SparkContext的目的是爲了準備Spark應用程序的運行環境,在Spark中有SparkContext負責與ClusterManager通訊,進行資源申請、任務的分配和監控等,當Executor部分運行完畢後,Driver同時負責將SparkContext關閉,一般用SparkContext表明Driver
  • Executor:  某個Application運行在worker節點上的一個進程,  該進程負責運行某些Task, 而且負責將數據存到內存或磁盤上,每一個Application都有各自獨立的一批Executor, 在Spark on Yarn模式下,其進程名稱爲CoarseGrainedExecutor Backend。一個CoarseGrainedExecutor Backend有且僅有一個Executor對象, 負責將Task包裝成taskRunner,並從線程池中抽取一個空閒線程運行Task, 這個每個oarseGrainedExecutor Backend能並行運行Task的數量取決與分配給它的cpu個數
  • Cluter Manager:指的是在集羣上獲取資源的外部服務。目前有三種類型
    1. Standalon : spark原生的資源管理,由Master負責資源的分配
    2. Apache Mesos:與hadoop MR兼容性良好的一種資源調度框架
    3. Hadoop Yarn: 主要是指Yarn中的ResourceManager
  • Worker: 集羣中任何能夠運行Application代碼的節點,在Standalone模式中指的是經過slave文件配置的Worker節點,在Spark on Yarn模式下就是NoteManager節點
  • Task: 被送到某個Executor上的工做單元,但hadoopMR中的MapTask和ReduceTask概念同樣,是運行Application的基本單位,多個Task組成一個Stage,而Task的調度和管理等是由TaskScheduler負責
  • Job: 包含多個Task組成的並行計算,每每由Spark Action觸發生成, 一個Application中每每會產生多個Job
  • Stage: 每一個Job會被拆分紅多組Task, 做爲一個TaskSet, 其名稱爲Stage,Stage的劃分和調度是有DAGScheduler來負責的,Stage有非最終的Stage(Shuffle Map Stage)和最終的Stage(Result Stage)兩種,Stage的邊界就是發生shuffle的地方
  • DAGScheduler: 根據Job構建基於Stage的DAG(Directed Acyclic Graph有向無環圖),並提交Stage給TASkScheduler。 其劃分Stage的依據是RDD之間的依賴的關係找出開銷最小的調度方法,以下圖
  • TASKSedulter: 將TaskSET提交給worker運行,每一個Executor運行什麼Task就是在此處分配的. TaskScheduler維護全部TaskSet,當Executor向Driver發生心跳時,TaskScheduler會根據資源剩餘狀況分配相應的Task。另外TaskScheduler還維護着全部Task的運行標籤,重試失敗的Task。下圖展現了TaskScheduler的做用
  • 在不一樣運行模式中任務調度器具體爲:
    1. Spark on Standalone模式爲TaskScheduler
    2. YARN-Client模式爲YarnClientClusterScheduler
    3. YARN-Cluster模式爲YarnClusterScheduler
  • 將這些術語串起來的運行層次圖以下:
  • Job=多個stage,Stage=多個同種task, Task分爲ShuffleMapTask和ResultTask,Dependency分爲ShuffleDependency和NarrowDependency

Spark運行模式:框架

  • Spark的運行模式多種多樣,靈活多變,部署在單機上時,既能夠用本地模式運行,也能夠用僞分佈模式運行,而當以分佈式集羣的方式部署時,也有衆多的運行模式可供選擇,這取決於集羣的實際狀況,底層的資源調度便可以依賴外部資源調度框架,也可使用Spark內建的Standalone模式。
  • 對於外部資源調度框架的支持,目前的實現包括相對穩定的Mesos模式,以及hadoop YARN模式
  • 本地模式:經常使用於本地開發測試,本地還分別 local 和 local cluster

standalone: 獨立集羣運行模式機器學習

  • Standalone模式使用Spark自帶的資源調度框架
  • 採用Master/Slaves的典型架構,選用ZooKeeper來實現Master的HA
  • 框架結構圖以下:
  • 該模式主要的節點有Client節點、Master節點和Worker節點。其中Driver既能夠運行在Master節點上中,也能夠運行在本地Client端。當用spark-shell交互式工具提交Spark的Job時,Driver在Master節點上運行;當使用spark-submit工具提交Job或者在Eclips、IDEA等開發平臺上使用」new SparkConf.setManager(「spark://master:7077」)」方式運行Spark任務時,Driver是運行在本地Client端上的
  • 運行過程以下圖:(參考至:http://blog.csdn.net/gamer_gyt/article/details/51833681
  1. SparkContext鏈接到Master,向Master註冊並申請資源(CPU Core 和Memory)
  2. Master根據SparkContext的資源申請要求和Worker心跳週期內報告的信息決定在哪一個Worker上分配資源,而後在該Worker上獲取資源,而後啓動StandaloneExecutorBackend;
  3. StandaloneExecutorBackend向SparkContext註冊;
  4. SparkContext將Applicaiton代碼發送給StandaloneExecutorBackend;而且SparkContext解析Applicaiton代碼,構建DAG圖,並提交給DAG Scheduler分解成Stage(當碰到Action操做時,就會催生Job;每一個Job中含有1個或多個Stage,Stage通常在獲取外部數據和shuffle以前產生),而後以Stage(或者稱爲TaskSet)提交給Task Scheduler,Task Scheduler負責將Task分配到相應的Worker,最後提交給StandaloneExecutorBackend執行;
  5. StandaloneExecutorBackend會創建Executor線程池,開始執行Task,並向SparkContext報告,直至Task完成
  6. 全部Task完成後,SparkContext向Master註銷,釋放資源

yarn:  (參考:http://blog.csdn.net/gamer_gyt/article/details/51833681)分佈式

  • Spark on YARN模式根據Driver在集羣中的位置分爲兩種模式:一種是YARN-Client模式,另外一種是YARN-Cluster(或稱爲YARN-Standalone模式)
  • Yarn-Client模式中,Driver在客戶端本地運行,這種模式可使得Spark Application和客戶端進行交互,由於Driver在客戶端,因此能夠經過webUI訪問Driver的狀態,默認是http://hadoop1:4040訪問,而YARN經過http:// hadoop1:8088訪問
  • YARN-client的工做流程步驟爲:
  • Spark Yarn Client向YARN的ResourceManager申請啓動Application Master。同時在SparkContent初始化中將建立DAGScheduler和TASKScheduler等,因爲咱們選擇的是Yarn-Client模式,程序會選擇YarnClientClusterScheduler和YarnClientSchedulerBackend
  • ResourceManager收到請求後,在集羣中選擇一個NodeManager,爲該應用程序分配第一個Container,要求它在這個Container中啓動應用程序的ApplicationMaster,與YARN-Cluster區別的是在該ApplicationMaster不運行SparkContext,只與SparkContext進行聯繫進行資源的分派
  • Client中的SparkContext初始化完畢後,與ApplicationMaster創建通信,向ResourceManager註冊,根據任務信息向ResourceManager申請資源(Container)
  • 一旦ApplicationMaster申請到資源(也就是Container)後,便與對應的NodeManager通訊,要求它在得到的Container中啓動CoarseGrainedExecutorBackend,CoarseGrainedExecutorBackend啓動後會向Client中的SparkContext註冊並申請Task
  • client中的SparkContext分配Task給CoarseGrainedExecutorBackend執行,CoarseGrainedExecutorBackend運行Task並向Driver彙報運行的狀態和進度,以讓Client隨時掌握各個任務的運行狀態,從而能夠在任務失敗時從新啓動任務
  • 應用程序運行完成後,Client的SparkContext向ResourceManager申請註銷並關閉本身

Spark Cluster模式:

  • 在YARN-Cluster模式中,當用戶向YARN中提交一個應用程序後,YARN將分兩個階段運行該應用程序:
    1. 第一個階段是把Spark的Driver做爲一個ApplicationMaster在YARN集羣中先啓動;
    2. 第二個階段是由ApplicationMaster建立應用程序,而後爲它向ResourceManager申請資源,並啓動Executor來運行Task,同時監控它的整個運行過程,直到運行完成
  • YARN-cluster的工做流程分爲如下幾個步驟
  • Spark Yarn Client向YARN中提交應用程序,包括ApplicationMaster程序、啓動ApplicationMaster的命令、須要在Executor中運行的程序等
  • ResourceManager收到請求後,在集羣中選擇一個NodeManager,爲該應用程序分配第一個Container,要求它在這個Container中啓動應用程序的ApplicationMaster,其中ApplicationMaster進行SparkContext等的初始化
  • ApplicationMaster向ResourceManager註冊,這樣用戶能夠直接經過ResourceManage查看應用程序的運行狀態,而後它將採用輪詢的方式經過RPC協議爲各個任務申請資源,並監控它們的運行狀態直到運行結束
  • 一旦ApplicationMaster申請到資源(也就是Container)後,便與對應的NodeManager通訊,要求它在得到的Container中啓動CoarseGrainedExecutorBackend,CoarseGrainedExecutorBackend啓動後會向ApplicationMaster中的SparkContext註冊並申請Task。這一點和Standalone模式同樣,只不過SparkContext在Spark Application中初始化時,使用CoarseGrainedSchedulerBackend配合YarnClusterScheduler進行任務的調度,其中YarnClusterScheduler只是對TaskSchedulerImpl的一個簡單包裝,增長了對Executor的等待邏輯等
  • ApplicationMaster中的SparkContext分配Task給CoarseGrainedExecutorBackend執行,CoarseGrainedExecutorBackend運行Task並向ApplicationMaster彙報運行的狀態和進度,以讓ApplicationMaster隨時掌握各個任務的運行狀態,從而能夠在任務失敗時從新啓動任務
  • 應用程序運行完成後,ApplicationMaster向ResourceManager申請註銷並關閉本身

Spark Client 和 Spark Cluster的區別:

  • 理解YARN-Client和YARN-Cluster深層次的區別以前先清楚一個概念:Application Master。在YARN中,每一個Application實例都有一個ApplicationMaster進程,它是Application啓動的第一個容器。它負責和ResourceManager打交道並請求資源,獲取資源以後告訴NodeManager爲其啓動Container。從深層次的含義講YARN-Cluster和YARN-Client模式的區別其實就是ApplicationMaster進程的區別
  • YARN-Cluster模式下,Driver運行在AM(Application Master)中,它負責向YARN申請資源,並監督做業的運行情況。當用戶提交了做業以後,就能夠關掉Client,做業會繼續在YARN上運行,於是YARN-Cluster模式不適合運行交互類型的做業
  • YARN-Client模式下,Application Master僅僅向YARN請求Executor,Client會和請求的Container通訊來調度他們工做,也就是說Client不能離開

思考: 咱們在使用Spark提交job時使用的哪一種模式?

 

RDD運行流程:

  • RDD在Spark中運行大概分爲如下三步:
    1. 建立RDD對象
    2. DAGScheduler模塊介入運算,計算RDD之間的依賴關係,RDD之間的依賴關係就造成了DAG
    3. 每個Job被分爲多個Stage。劃分Stage的一個主要依據是當前計算因子的輸入是不是肯定的,若是是則將其分在同一個Stage,避免多個Stage之間的消息傳遞開銷
  • 示例圖以下:
  • 如下面一個按 A-Z 首字母分類,查找相同首字母下不一樣姓名總個數的例子來看一下 RDD 是如何運行起來的
  • 建立 RDD  上面的例子除去最後一個 collect 是個動做,不會建立 RDD 以外,前面四個轉換都會建立出新的 RDD 。所以第一步就是建立好全部 RDD( 內部的五項信息 )?
  • 建立執行計劃 Spark 會盡量地管道化,並基因而否要從新組織數據來劃分 階段 (stage) ,例如本例中的 groupBy() 轉換就會將整個執行計劃劃分紅兩階段執行。最終會產生一個 DAG(directed acyclic graph ,有向無環圖 ) 做爲邏輯執行計劃
  • 調度任務  將各階段劃分紅不一樣的 任務 (task) ,每一個任務都是數據和計算的合體。在進行下一階段前,當前階段的全部任務都要執行完成。由於下一階段的第一個轉換必定是從新組織數據的,因此必須等當前階段全部結果數據都計算出來了才能繼續
相關文章
相關標籤/搜索