spark 運行模式

時間 2019-11-16

標籤 spark 運行模式欄目 Spark 简体版

原文原文鏈接

1. Spark中的基本概念javascript

在Spark中，有下面的基本概念。
Application:基於Spark的用戶程序，包含了一個driver program和集羣中多個executor
Driver Program：運行Application的main()函數並建立SparkContext。一般SparkContext表明driver program
Executor：爲某Application運行在worker node上的餓一個進程。該進程負責運行Task，並負責將數據存在內存或者磁盤上。每一個Application都有本身獨立的executors
Cluster Manager: 在集羣上得到資源的外部服務（例如 Spark Standalon，Mesos、Yarn）
Worker Node: 集羣中任何可運行Application代碼的節點
Task：被送到executor上執行的工做單元。
Job：能夠被拆分紅Task並行計算的工做單元，通常由Spark Action觸發的一次執行做業。
Stage：每一個Job會被拆分紅不少組Task，每組任務被稱爲stage，也可稱TaskSet。該術語能夠常常在日誌中看打。
RDD ：Spark的基本計算單元，經過Scala集合轉化、讀取數據集生成或者由其餘RDD通過算子操做獲得。
html

2. Spark應用框架

客戶Spark程序（Driver Program）來操做Spark集羣是經過SparkContext對象來進行，SparkContext做爲一個操做和調度的總入口，在初始化過程當中集羣管理器會建立DAGScheduler做業調度和TaskScheduler任務調度。java

DAGScheduler做業調度模塊是基於Stage的高層調度模塊(參考：Spark分析之DAGScheduler)，DAG全稱 Directed Acyclic Graph，有向無環圖。簡單的來講，就是一個由頂點和有方向性的邊構成的圖中，從任意一個頂點出發，沒有任何一條路徑會將其帶回到出發的頂點。它爲每一個Spark Job計算具備依賴關係的多個Stage任務階段（一般根據Shuffle來劃分Stage，如groupByKey, reduceByKey等涉及到shuffle的transformation就會產生新的stage），而後將每一個Stage劃分爲具體的一組任務，以TaskSets的形式提交給底層的任務調度模塊來具體執行。其中，不一樣stage以前的RDD爲寬依賴關係。 TaskScheduler任務調度模塊負責具體啓動任務，監控和彙報任務運行狀況。node

建立SparkContext通常要通過下面幾個步驟：web

a). 導入Spark的類和隱式轉換
算法

[java] view plain copy print ?shell

import org.apache.spark.{SparkContext, SparkConf} apache
import org.apache.spark.SparkContext._ api

import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.SparkContext._

b). 構建Spark應用程序的應用信息對象SparkConf 數組

spark 運行模式

2. Spark應用框架

3. RDD的創造

4. RDD操做

Transformations

(1). map(func)

2). filter(func)

(3). flatMap(func)

(4). mapPartitions(func)

(5). mapPartitionsWithIndex(func)

(6). sample(withReplacement,fraction, seed)

(7). union(otherDataset)

(8). intersection(otherDataset)

(9). distinct([numTasks]))

(10.)groupByKey([numTasks])

(11).reduceByKey(func, [numTasks])

(12).sortByKey([ascending], [numTasks])

(13). join(otherDataset, [numTasks])

(14).cogroup(otherDataset, [numTasks])

(15).cartesian(otherDataset)

(16). pipe(command, [envVars])

(17).coalesce(numPartitions)

(18).repartition(numPartitions)

Actions

(19). reduce(func)

(20). collect()

(21). count()

(22). first()

(23). take(n)

(24). countByKey()

(25). foreach(func)

(26). takeSample(withReplacement,num, seed)

(27). takeOrdered(n, [ordering])

(28). saveAsTextFile(path)

(29). saveAsSequenceFile(path)

(30). saveAsObjectFile(path)

5. RDD緩存

6. RDD的共享變量