Apache Flink(如下簡稱Flink)是誕生於歐洲的一個大數據研究項目,原名StratoSphere。該項目是柏林工業大學的一個研究性項目,早期專一於批計算。2014年,StratoSphere項目中的核心成員孵化出Flink,並在同年將Flink捐贈Apache,後來Flink順利成爲Apache的頂級大數據項目。同時Flink計算的主流方向被定位爲流計算,即用流式計算來作全部大數據的計算工做,這就是Flink技術誕生的背景。算法
2014年Flink做爲主攻流計算的大數據引擎開始在開源大數據行業內嶄露頭角。區別於Storm、Spark Streaming以及其餘流式計算引擎的是:它不只是一個高吞吐、低延遲的計算引擎,同時還提供不少高級功能。好比它提供有狀態的計算,支持狀態管理,支持強一致性的數據語義以及支持Event Time,WaterMark對消息亂序的處理等。數據庫
Flink的受歡迎還離不開它身上的衆多標籤,其中包括性能優秀(尤爲在流計算領域)、高可擴展性、支持容錯,是一種純內存式的一個計算引擎,作了內存管理方面的大量優化,另外也支持eventime的處理、支持超大狀態的Job(在阿里巴巴中做業的state大小超過TB的是很是常見的)、支持exactly-once的處理。網絡
隨着人工智能時代的降臨,數據量的爆發,在典型的大數據的業務場景下數據業務最通用的作法是:選用批處理的技術處理全量數據,採用流式計算處理實時增量數據。在絕大多數的業務場景之下,用戶的業務邏輯在批處理和流處理之中每每是相同的。可是,用戶用於批處理和流處理的兩套計算引擎是不一樣的。數據結構
所以,用戶一般須要寫兩套代碼。毫無疑問,這帶來了一些額外的負擔和成本。阿里巴巴的商品數據處理就常常須要面對增量和全量兩套不一樣的業務流程問題,因此阿里巴巴就在想:能不能有一套統一的大數據引擎技術,用戶只須要根據本身的業務邏輯開發一套代碼。這樣在各類不一樣的場景下,無論是全量數據仍是增量數據,亦或者實時處理,一套方案便可所有支持,這就是阿里巴巴選擇Flink的背景和初衷。多線程
基於Flink在阿里巴巴搭建的平臺於2016年正式上線,並從阿里巴巴的搜索和推薦這兩大場景開始實現。目前阿里巴巴全部的業務,包括阿里巴巴全部子公司都採用了基於Flink搭建的實時計算平臺。同時Flink計算平臺運行在開源的Hadoop集羣之上。採用Hadoop的YARN作爲資源管理調度,以 HDFS做爲數據存儲。所以,Flink能夠和開源大數據軟件Hadoop無縫對接。架構
目前,這套基於Flink搭建的實時計算平臺不只服務於阿里巴巴集團內部,並且經過阿里雲的雲產品API向整個開發者生態提供基於Flink的雲產品支持。機器學習
彼時的Flink無論是規模仍是穩定性還沒有經歷實踐,成熟度有待商榷。阿里巴巴實時計算團隊決定在阿里內部創建一個Flink分支Blink,並對Flink進行大量的修改和完善,讓其適應阿里巴巴這種超大規模的業務場景。在這個過程中,該團隊不只對Flink在性能和穩定性上作出了不少改進和優化,同時在覈心架構和功能上也進行了大量創新和改進,並將逐漸推回給社區,例如:Flink新的分佈式架構,增量Checkpoint機制,基於Credit-based的網絡流控機制和Streaming SQL等。接下來,咱們主要從兩個層面深度剖析阿里巴巴對Flink究竟作了哪些優化?異步
爲了可以真正作到用戶根據本身的業務邏輯開發一套代碼,可以同時運行在多種不一樣的場景,Flink首先須要給用戶提供一個統一的API。在通過一番調研以後,阿里巴巴實時計算認爲SQL是一個很是適合的選擇。在批處理領域,SQL已經經歷了幾十年的考驗,是公認的經典。在流計算領域,近年來也不斷有流表二象性、流是表的ChangeLog等理論出現。在這些理論基礎之上,阿里巴巴提出了動態表的概念,使得流計算也能夠像批處理同樣使用SQL來描述,而且邏輯等價。這樣一來,用戶就可使用SQL來描述本身的業務邏輯,相同的查詢語句在執行時能夠是一個批處理任務,也能夠是一個高吞吐低延遲的流計算任務,甚至是先使用批處理技術進行歷史數據的計算,而後自動的轉成流計算任務處理最新的實時數據。在這種聲明式的API之下,引擎有了更多的選擇和優化空間。接下來,咱們將介紹其中幾個比較重要的優化。數據結構和算法
首先是對SQL層的技術架構進行升級和替換。調研過Flink或者使用過Flink的開發者應該知道,Flink有兩套基礎的API,一套是DataStream,另外一套是DataSet。DataStream API是針對流式處理的用戶提供,DataSet API是針對批處理用戶提供,可是這兩套API的執行路徑是徹底不同的,甚至須要生成不一樣的Task去執行。Flink原生的SQL層在通過一系列優化以後,會根據用戶但願是批處理仍是流處理的不一樣選擇,去調用DataSet或者是DataStream API。這就會形成用戶在平常開發和優化中,常常要面臨兩套幾乎徹底獨立的技術棧,不少事情可能須要重複的去作兩遍。這樣也會致使在一邊的技術棧上作的優化,另一邊就享受不到。所以阿里巴巴在SQL層提出了全新的Quyer Processor,它主要包括一個流和批能夠儘可能作到複用的優化層(Query Optimizer)以及基於相同接口的算子層(Query Executor)。這樣一來, 80%以上的工做能夠作到兩邊複用,好比一些公共的優化規則,基礎數據結構等等。同時,流和批也會各自保留本身一些獨特的優化和算子,以知足不一樣的做業行爲。分佈式
在SQL層的技術架構統一以後,阿里巴巴開始尋求一種更高效的基礎數據結構,以便讓Blink在SQL層的執行更加高效。在原生Flink SQL中,都統一使用了一種叫Row的數據結構,它徹底由JAVA的一些對象構成關係數據庫中的一行。假如如今的一行數據由一個整型,一個浮點型以及一個字符串組成,那麼Row當中就會包含一個JAVA的Integer、Double和String。衆所周知,這些JAVA的對象在堆內有很多的額外開銷,同時在訪問這些數據的過程當中也會引入沒必要要的裝箱拆箱操做。基於這些問題,阿里巴巴提出了一種全新的數據結構BinaryRow,它和原來的Row同樣也是表示一個關係數據中的一行,但與之不一樣的是,它徹底使用二進制數據來存儲這些數據。在上述例子中,三個不一樣類型的字段統一由JAVA的byte[]來表示。這會帶來諸多好處:
經過引入這樣一個高效的基礎數據結構,整個SQL層的執行效率獲得了一倍以上的提高。
在算子的實現層面,阿里巴巴引入了更廣範圍的代碼生成技術。得益於技術架構和基礎數據結構的統一,不少代碼生成技術得以達到更廣範圍的複用。同時因爲SQL的強類型保證,用戶能夠預先知道算子須要處理的數據的類型,從而能夠生成更有針對性更高效的執行代碼。在原生Flink SQL中,只有相似a > 2或者c + d這樣的簡單表達式纔會應用代碼生成技術,在阿里巴巴優化以後,有一些算子會進行總體的代碼生成,好比排序、聚合等。這使得用戶能夠更加靈活的去控制算子的邏輯,也能夠直接將最終運行代碼嵌入到類當中,去掉了昂貴的函數調用開銷。一些應用代碼生成技術的基礎數據結構和算法,好比排序算法,基於二進制數據的HashMap等,也能夠在流和批的算子之間進行共享和複用,讓用戶真正享受到了技術和架構的統一帶來的好處。在針對批處理的某些場景進行數據結構或者算法的優化以後,流計算的性能也可以獲得提高。接下來,咱們聊聊阿里巴巴在Runtime層對Flink又大刀闊斧地進行了哪些改進。
爲了讓Flink在Alibaba的大規模生產環境中生根發芽,實時計算團隊如期遇到了各類挑戰,首當其衝的就是如何讓Flink與其餘集羣管理系統進行整合。Flink原生集羣管理模式還沒有完善,也沒法原生地使用其餘其餘相對成熟的集羣管理系統。基於此,一系列棘手的問題接連浮現:多租戶之間資源如何協調?如何動態的申請和釋放資源?如何指定不一樣資源類型?
爲了解決這個問題,實時計算團隊經歷大量的調研與分析,最終選擇的方案是改造Flink資源調度系統,讓Flink能夠原生地跑在Yarn集羣之上;而且重構Master架構,讓一個Job對應一個Master,今後Master再也不是集羣瓶頸。以此爲契機,阿里巴巴和社區聯手推出了全新的Flip-6架構,讓Flink資源管理變成可插拔的架構,爲Flink的可持續發展打下了堅實的基礎。現在Flink能夠無縫運行在YARN、Mesos和K8s之上,正是這個架構重要性的有力說明。
解決了Flink集羣大規模部署問題後,接下來的就是可靠和穩定性,爲了保證Flink在生產環境中的高可用,阿里巴巴着重改善了Flink的FailOver機制。首先是Master的FailOver,Flink原生的Master FailOver會重啓全部的Job,改善後Master任何FailOver都不會影響Job的正常運行;其次引入了Region-based的Task FailOver,儘可能減小任何Task的FailOver對用戶形成的影響。有了這些改進的保駕護航,阿里巴巴的大量業務方開始把實時計算遷移到Flink上運行。
Stateful Streaming是Flink的最大亮點,基於Chandy-Lamport算法的Checkpoint機制讓Flink具有Exactly Once一致性的計算能力,但在早期Flink版本中Checkpoint的性能在大規模數據量下存在必定瓶頸,阿里巴巴也在Checkpoint上進行了大量改進,好比:
雖說全部的數據能夠放在State中,但因爲一些歷史的緣由,用戶依然有一些數據須要存放在像HBase等一些外部KV存儲中,用戶在Flink Job須要訪問這些外部的數據,可是因爲Flink一直都是單線程處理模型,致使訪問外部數據的延遲成爲整個系統的瓶頸,顯然異步訪問是解決這個問題的直接手段,可是讓用戶在UDF中寫多線程同時還要保證ExactlyOnce語義,卻並不是易事。阿里巴巴在Flink中提出了AsyncOperator,讓用戶在Flink JOB中寫異步調用和寫「Hello Word」同樣簡單 ,這個讓Flink Job的吞吐有了很大的飛躍。
Flink在設計上是一套批流統一的計算引擎,在使用過快如閃電的流計算以後,批用戶也開始有興趣入住Flink小區。但批計算也帶來了新的挑戰,首先在任務調度方面,阿里巴巴引入了更加靈活的調度機制,可以根據任務之間的依賴關係進行更加高效的調度;其次就是數據Shuffle,Flink原生的Shuffle Service和TM綁定,任務執行完以後要依舊保持TM沒法釋放資源;還有就是原有的Batch shuffle沒有對文件進行合併,因此基本沒法在生產中使用。阿里巴巴開發了Yarn Shuffle Service功能的同時解決了以上兩個問題。在開發Yarn Shuffle Service的時候,阿里巴巴發現開發一套新的Shuffle Service很是不便,須要侵入Flink代碼的不少地方,爲了讓其餘開發者方便的擴展不一樣Shuffle,阿里巴巴同時改造了Flink Shuffle架構,讓Flink的Shuffle變成可插拔的架構。目前阿里巴巴的搜索業務已經在使用Flink Batch Job,而且已經開始服務於生產。
通過3年多打磨,Blink已經在阿里巴巴開始茁壯生長,可是對Runtime的優化和改進是永無止境的,一大波改進和優化正在路上。
目前Flink已是一個主流的流計算引擎,社區下一步很重要的工做是讓Flink在批計算上有所突破,在更多的場景下落地,成爲一種主流的批計算引擎。而後進一步在流和批之間進行無縫的切換,流和批的界限愈來愈模糊。用Flink,在一個計算中,既能夠有流計算,又能夠有批計算。
接下來阿里巴巴將致力於推進Flink在生態上獲得更多語言的支持,不只僅是Java、Scala語言,甚至是機器學習下用的Python、Go語言。
另外一點不得不說AI,由於如今不少大數據計算的需求和數據量都是在支持很火爆的AI場景,因此Flink在流批生態完善的基礎上,將繼續完善上層的Machine Learning算法庫,同時Flink也會向更成熟的機器學習、深度學習去集成。好比能夠作Tensorflow On Flink, 讓大數據的ETL數據處理和機器學習的Feature計算和特徵計算,訓練的計算等進行集成,讓開發者可以同時享受到多種生態給你們帶來的好處。
最後,從生態、社區的活躍來講,阿里巴巴目前在推動的一件事情是籌備2018年12月20日-21日在國家會議中心舉辦的首屆Flink Forward China峯會(千人規模),參與者將有機會了解阿里巴巴、騰訊、華爲、滴滴、美團、字節跳動等公司爲什麼將Flink做爲首選的流處理引擎。