Spark基礎概念

  • spark應用的基本概念
    •   spark應用(Application)執行過程當中各個組件的概念:

1.Task(任務):RDD中的一個分區對應一個task,task是單個分區上最小的處理流程單元。app

2.TaskSet(任務集):一組關聯的,但相互之間沒有Shuffle依賴關係的Task集合。spa

3.Stage(調度階段):一個taskSet對應的調度階段,每一個job會根據RDD的寬依賴關係被切分不少Stage,每一個stage都包含 一個TaskSet。blog

4.job(做業):由Action算子觸發生成的由一個或者多個stage組成的計算做業。資源

5.application:用戶編寫的spark應用程序,由一個或者多個job組成,提交到spark以後,spark爲application分派資源,將程序轉換並執行。spark

6.DAGScheduler:根據job構建基於stage的DAG,並提交stage給TaskScheduler。io

7.TaskScheduler:將Taskset提交給Worker Node集羣運行並返回結果。集羣

    Spring驅動程序:程序

      

相關文章
相關標籤/搜索