Flink 運行時架構主要包括四個不一樣的組件,它們會在運行流處理應用程序時協同工做:redis
做業管理器(JobManager)、資源管理器(ResourceManager)、任務管理器(TaskManager),編程
以及分發器(Dispatcher)。由於 Flink 是用 Java 和 Scala 實現的,因此全部組件都會運行在緩存
Java 虛擬機上。每一個組件的職責以下:數據結構
上圖是從一個較爲高層級的視角,來看應用中各組件的交互協做。架構
若是部署的集羣環境不一樣(例如 YARN, Mesos, Kubernetes, standalone 等),其中一些步驟能夠被省略,或是有些組件會運行在同一個 JVM 進程中。併發
具體地,若是咱們將 Flink 集羣部署到 YARN 上,那麼就會有以下的提交流程:app
當 Flink 集 羣 啓 動 後 , 首 先 會 啓 動 一 個 JobManger 和 一 個 或 多 個 的分佈式
TaskManager。由 Client 提交任務給 JobManager, JobManager 再調度任務到各個工具
TaskManager 去執行,而後 TaskManager 將心跳和統計信息彙報給 JobManager。大數據
TaskManager 之間以流的形式進行數據的傳輸。上述三者均爲獨立的 JVM 進程。
Client 爲提交 Job 的客戶端,能夠是運行在任何機器上(與 JobManager 環境
連通便可)。提交 Job 後, Client 能夠結束進程( Streaming 的任務),也能夠不
JobManager 主 要 負 責 調 度 Job 並 協 調 Task 作 checkpoint, 職 責 上 很 像
Storm 的 Nimbus。從 Client 處接收到 Job 和 JAR 包等資源後,會生成優化後的
執行計劃,並以 Task 的單元調度到各個 TaskManager 去執行。
TaskManager 在啓動的時候就設置好了槽位數( Slot),每一個 slot 能啓動一個
Task, Task 爲線程。從 JobManager 處接收須要部署的 Task,部署啓動後,與自
每一個 task slot 表示 TaskManager 擁有資源的一個固定大小的子集。假如一個TaskManager 有三個 slot,那麼它會將其管理的內存分紅三份給各個 slot。資源 slot化意味着一個 subtask 將不須要跟來自其餘 job 的 subtask 競爭被管理的內存,取而代之的是它將擁有必定數量的內存儲備。須要注意的是,這裏不會涉及到 CPU 的隔離, slot 目前僅僅用來隔離 task 的受管理的內存。
經過調整 task slot 的數量,容許用戶定義 subtask 之間如何互相隔離。若是一個TaskManager 一個 slot,那將意味着每一個 task group 運行在獨立的 JVM 中(該 JVM多是經過一個特定的容器啓動的),而一個 TaskManager 多個 slot 意味着更多的subtask 能夠共享同一個 JVM。而在同一個 JVM 進程中的 task 將共享 TCP 鏈接(基於多路複用)和心跳消息。它們也可能共享數據集和數據結構,所以這減小了每一個task 的負載。
能夠經過參數 taskmanager.numberOfTaskSlots 進行配置; 而並行度 parallelism 是動態概念,即 TaskManager 運行程序時實際使用的併發能力,能夠經過參數 parallelism.default進行配置。也就是說,假設一共有 3 個 TaskManager,每個 TaskManager 中的分配 3 個TaskSlot,也就是每一個 TaskManager 能夠接收 3 個 task,一共 9 個 TaskSlot,若是咱們設置 parallelism.default=1,即運行程序默認的並行度爲 1, 9 個 TaskSlot 只用了 1個,有 8 個空閒,所以,設置合適的並行度才能提升效率。
全部的 Flink 程序都是由三部分組成的: Source 、 Transformation 和 Sink。
Source 負責讀取數據源, Transformation 利用各類算子進行處理加工, Sink 負責輸出。
在運行時, Flink 上運行的程序會被映射成「邏輯數據流」( dataflows) ,它包含了這三部分。 每個 dataflow 以一個或多個 sources 開始以一個或多個 sinks 結束。 dataflow 相似於任意的有向無環圖( DAG)。在大部分狀況下,程序中的轉換運算( transformations) 跟 dataflow 中的算子(operator) 是一一對應的關係,但有時候,一個 transformation 可能對應多個 operator。
由 Flink 程序直接映射成的數據流圖是 StreamGraph,也被稱爲邏輯流圖,由於它們表示的是計算邏輯的高級視圖。爲了執行一個流處理程序, Flink 須要將邏輯流圖轉換爲物理數據流圖(也叫執行圖) ,詳細說明程序的執行方式。
Flink 中的執行圖能夠分紅四層: StreamGraph -> JobGraph -> ExecutionGraph ->物理執行圖。
在執行過程當中,一個流( stream) 包含一個或多個分區( stream partition) ,而每個算子( operator)能夠包含一個或多個子任務( operator subtask) ,這些子任務在不一樣的線程、不一樣的物理機或不一樣的容器中彼此互不依賴地執行。
一個特定算子的子任務( subtask) 的個數被稱之爲其並行度( parallelism) 。
通常狀況下, 一個流程序的並行度,能夠認爲就是其全部算子中最大的並行度。一
Stream 在算子之間傳輸數據的形式能夠是 one-to-one(forwarding)的模式也能夠
是 redistributing 的模式,具體是哪種形式,取決於算子的種類。
One-to-one: stream(好比在 source 和 map operator 之間)維護着分區以及元素的
順序。那意味着 map 算子的子任務看到的元素的個數以及順序跟 source 算子的子
任務生產的元素的個數、順序相同, map、 fliter、 flatMap 等算子都是 one-to-one 的
Redistributing: stream(map()跟 keyBy/window 之間或者 keyBy/window 跟 sink
之間)的分區會發生改變。每個算子的子任務依據所選擇的 transformation 發送數
據到不一樣的目標任務。例如, keyBy() 基於 hashCode 重分區、 broadcast 和 rebalance
會隨機從新分區,這些算子都會引發 redistribute 過程,而 redistribute 過程就相似於
Spark 中的 shuffle 過程。(PS.相似於 spark 中的寬依賴)
相同並行度的 one to one 操做, Flink 這樣相連的算子連接在一塊兒造成一個 task,原來的算子成爲裏面的一部分。將算子連接成 task 是很是有效的優化:它能減小線程之間的切換和基於緩存區的數據交換,在減小時延的同時提高吞吐量。連接的行爲能夠在編程 API 中進行指定。