1、前言
最近幾天由於工做比較忙,已經幾天沒有及時更新文章了,在這裏先給小夥伴們說聲抱歉…臨近週末,再忙再累,我也要開始發力了。接下來的幾天,菌哥將爲你們帶來關於FlinkSQL的教程,以後還會更新一些大數據實時數倉的內容,和一些熱門的組件使用!但願小夥伴們能點個關注,第一時間關注技術乾貨!java
2、FlinkSQL出現的背景
Flink SQL 是 Flink 實時計算爲簡化計算模型,下降用戶使用實時計算門檻而設計的一套符合標準 SQL 語義的開發語言。mysql
自 2015 年開始,阿里巴巴開始調研開源流計算引擎,最終決定基於 Flink 打造新一代計算引擎,針對 Flink 存在的不足進行優化和改進,而且在 2019 年初將最終代碼開源,也就是咱們熟知的 Blink。Blink 在原來的 Flink 基礎上最顯著的一個貢獻就是 Flink SQL 的實現。web
Flink SQL 是面向用戶的 API 層,在咱們傳統的流式計算領域,好比 Storm、Spark Streaming 都會提供一些 Function 或者 Datastream API,用戶經過 Java 或 Scala 寫業務邏輯,這種方式雖然靈活,但有一些不足,好比具有必定門檻且調優較難,隨着版本的不斷更新,API 也出現了不少不兼容的地方。面試
在這個背景下,毫無疑問,SQL 就成了咱們最佳選擇,之因此選擇將 SQL 做爲核心 API,是由於其具備幾個很是重要的特色:sql
- SQL 屬於設定式語言,用戶只要表達清楚需求便可,不須要了解具體作法;
- SQL 可優化,內置多種查詢優化器,這些查詢優化器可爲 SQL 翻譯出最優執行計劃;
- SQL 易於理解,不一樣行業和領域的人都懂,學習成本較低;
- SQL 很是穩定,在數據庫 30 多年的歷史中,SQL 自己變化較少;
- 流與批的統一,Flink 底層 Runtime 自己就是一個流與批統一的引擎,而 SQL 能夠作到 API 層的流與批統一。
3、總體介紹
3.1 什麼是 Table API 和 Flink SQL?
Flink自己是批流統一的處理框架,因此Table API和SQL,就是批流統一的上層處理API。目前功能還沒有完善,處於活躍的開發階段。數據庫
Table API是一套內嵌在Java和Scala語言中的查詢API,它容許咱們以很是直觀的方式,組合來自一些關係運算符的查詢(好比select、filter和join)。而對於Flink SQL,就是直接能夠在代碼中寫SQL,來實現一些查詢(Query)操做。Flink的SQL支持,基於實現了SQL標準的Apache Calcite(Apache開源SQL解析工具)。apache
不管輸入是批輸入仍是流式輸入,在這兩套API中,指定的查詢都具備相同的語義,獲得相同的結果。json
3.2 須要引入的依賴
Table API 和 SQL 須要引入的依賴有兩個:planner
和 bridge
bootstrap
<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-table-planner_2.11</artifactId> <version>1.10.0</version> </dependency> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-table-api-scala-bridge_2.11</artifactId> <version>1.10.0</version> </dependency>
其中:api
flink-table-planner:planner計劃器,是table API最主要的部分,提供了運行時環境和生成程序執行計劃的planner;
flink-table-api-scala-bridge:bridge橋接器,主要負責table API和 DataStream/DataSet API的鏈接支持,按照語言分java和scala;
這裏的兩個依賴,是IDE環境下運行須要添加的;若是是生產環境,lib目錄下默認已經有了planner,就只須要有bridge就能夠了。
固然,若是想使用用戶自定義函數,或是跟 kafka 作鏈接,須要有一個SQL client,這個包含在 flink-table-common
裏。
3.3 兩種planner(old & blink)的區別
一、批流統一:Blink將批處理做業,視爲流式處理的特殊狀況。因此,blink不支持表和DataSet之間的轉換,批處理做業將不轉換爲DataSet應用程序,而是跟流處理同樣,轉換爲DataStream程序來處理。
二、由於批流統一,Blink planner也不支持BatchTableSource,而使用有界的StreamTableSource代替。
三、Blink planner只支持全新的目錄,不支持已棄用的ExternalCatalog。
四、舊 planner 和 Blink planner 的FilterableTableSource實現不兼容。舊的planner會把PlannerExpressions下推到filterableTableSource中,而blink planner則會把Expressions下推。
五、基於字符串的鍵值配置選項僅適用於Blink planner。
六、PlannerConfig在兩個planner中的實現不一樣。
七、Blink planner會將多個sink優化在一個DAG中(僅在TableEnvironment上受支持,而在StreamTableEnvironment上不受支持)。而舊 planner 的優化老是將每個sink放在一個新的DAG中,其中全部DAG彼此獨立。
八、舊的planner不支持目錄統計,而Blink planner支持。
4、API 調用
4.1 基本程序結構
Table API 和 SQL 的程序結構,與流式處理的程序結構相似;也能夠近似地認爲有這麼幾步:首先建立執行環境,而後定義source、transform和sink。
具體操做流程以下:
val tableEnv = ... // 建立表的執行環境 // 建立一張表,用於讀取數據 tableEnv.connect(...).createTemporaryTable("inputTable") // 註冊一張表,用於把計算結果輸出 tableEnv.connect(...).createTemporaryTable("outputTable") // 經過 Table API 查詢算子,獲得一張結果表 val result = tableEnv.from("inputTable").select(...) // 經過 SQL查詢語句,獲得一張結果表 val sqlResult = tableEnv.sqlQuery("SELECT ... FROM inputTable ...") // 將結果表寫入輸出表中 result.insertInto("outputTable")
4.2 建立表環境
建立表環境最簡單的方式,就是基於流處理執行環境,調create方法直接建立:
val tableEnv = StreamTableEnvironment.create(env)
表環境(TableEnvironment)是flink中集成 Table API & SQL 的核心概念。它負責:
- 註冊catalog
- 在內部 catalog 中註冊表
- 執行 SQL 查詢
- 註冊用戶自定義函數
- 將 DataStream 或 DataSet 轉換爲表
- 保存對 ExecutionEnvironment 或 StreamExecutionEnvironment 的引用
在建立TableEnv的時候,能夠多傳入一個EnvironmentSettings 或者 TableConfig 參數,能夠用來配置 TableEnvironment 的一些特性。
好比,配置老版本的流式查詢(Flink-Streaming-Query):
val settings = EnvironmentSettings.newInstance() .useOldPlanner() // 使用老版本planner .inStreamingMode() // 流處理模式 .build() val tableEnv = StreamTableEnvironment.create(env, settings)
基於老版本的批處理環境(Flink-Batch-Query):
val batchEnv = ExecutionEnvironment.getExecutionEnvironment val batchTableEnv = BatchTableEnvironment.create(batchEnv)
基於 blink 版本的流處理環境(Blink-Streaming-Query):
val bsSettings = EnvironmentSettings.newInstance() .useBlinkPlanner() .inStreamingMode().build() val bsTableEnv = StreamTableEnvironment.create(env, bsSettings)
基於blink版本的批處理環境(Blink-Batch-Query):
val bbSettings = EnvironmentSettings.newInstance() .useBlinkPlanner() .inBatchMode().build() val bbTableEnv = TableEnvironment.create(bbSettings)
4.3 在Catalog中註冊表
4.3.1 表(Table)的概念
TableEnvironment 能夠註冊目錄 Catalog ,並能夠基於Catalog註冊表。它會維護一個 Catalog-Table 表之間的map。
表(Table)是由一個「標識符」來指定的,由3部分組成:Catalog名、數據庫(database)名和對象名(表名)。若是沒有指定目錄或數據庫,就使用當前的默認值。
表能夠是常規的(Table,表),或者虛擬的(View,視圖)。常規表(Table)通常能夠用來描述外部數據,好比文件、數據庫表或消息隊列的數據,也能夠直接從 DataStream轉換而來。視圖能夠從現有的表中建立,一般是 table API 或者SQL查詢的一個結果。
4.3.2 鏈接到文件系統(Csv格式)
鏈接外部系統在Catalog中註冊表,直接調用 tableEnv.connect() 就能夠,裏面參數要傳入一個 ConnectorDescriptor ,也就是connector描述器。對於文件系統的 connector 而言,flink內部已經提供了,就叫作FileSystem()。
代碼以下:
tableEnv .connect( new FileSystem().path("sensor.txt")) // 定義表數據來源,外部鏈接 .withFormat(new OldCsv()) // 定義從外部系統讀取數據以後的格式化方法 .withSchema( new Schema() .field("id", DataTypes.STRING()) .field("timestamp", DataTypes.BIGINT()) .field("temperature", DataTypes.DOUBLE()) ) // 定義表結構 .createTemporaryTable("inputTable") // 建立臨時表
這是舊版本的csv格式描述器。因爲它是非標的,跟外部系統對接並不通用,因此將被棄用,之後會被一個符合RFC-4180標準的新format描述器取代。新的描述器就叫Csv(),但flink沒有直接提供,須要引入依賴flink-csv:
<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-csv</artifactId> <version>1.10.0</version> </dependency>
代碼很是相似,只須要把 withFormat 裏的 OldCsv 改爲Csv就能夠了。
4.3.3 鏈接到Kafka
kafka的鏈接器 flink-kafka-connector 中,1.10 版本的已經提供了 Table API 的支持。咱們能夠在 connect方法中直接傳入一個叫作Kafka的類,這就是kafka鏈接器的描述器ConnectorDescriptor。
tableEnv.connect( new Kafka() .version("0.11") // 定義kafka的版本 .topic("sensor") // 定義主題 .property("zookeeper.connect", "localhost:2181") .property("bootstrap.servers", "localhost:9092") ) .withFormat(new Csv()) .withSchema(new Schema() .field("id", DataTypes.STRING()) .field("timestamp", DataTypes.BIGINT()) .field("temperature", DataTypes.DOUBLE()) ) .createTemporaryTable("kafkaInputTable")
固然也能夠鏈接到 ElasticSearch、MySql、HBase、Hive等外部系統,實現方式基本上是相似的。感興趣的 小夥伴能夠自行去研究,這裏就不詳細贅述了。
4.4 表的查詢
經過上面的學習,咱們已經利用外部系統的鏈接器connector,咱們能夠讀寫數據,並在環境的Catalog中註冊表。接下來就能夠對錶作查詢轉換了。
Flink給咱們提供了兩種查詢方式:Table API和 SQL。
4.4.1 Table API的調用
Table API是集成在Scala和Java語言內的查詢API。與SQL不一樣,Table API的查詢不會用字符串表示,而是在宿主語言中一步一步調用完成的。
Table API基於表明一張「表」的Table類,並提供一整套操做處理的方法API。這些方法會返回一個新的Table對象,這個對象就表示對輸入表應用轉換操做的結果。有些關係型轉換操做,能夠由多個方法調用組成,構成鏈式調用結構。例如table.select(…).filter(…)
,其中 select(…)表示選擇表中指定的字段,filter(…)表示篩選條件。
代碼中的實現以下:
val sensorTable: Table = tableEnv.from("inputTable") val resultTable: Table = senorTable .select("id, temperature") .filter("id ='sensor_1'")
4.4.2 SQL查詢
Flink的SQL集成,基於的是ApacheCalcite,它實現了SQL標準。在Flink中,用常規字符串來定義SQL查詢語句。SQL 查詢的結果,是一個新的 Table。
代碼實現以下:
val resultSqlTable: Table = tableEnv.sqlQuery("select id, temperature from inputTable where id ='sensor_1'")
或者:
val resultSqlTable: Table = tableEnv.sqlQuery( """ |select id, temperature |from inputTable |where id = 'sensor_1' """.stripMargin)
固然,也能夠加上聚合操做,好比咱們統計每一個sensor溫度數據出現的個數,作個count統計:
val aggResultTable = sensorTable .groupBy('id) .select('id, 'id.count as 'count)
SQL的實現:
val aggResultSqlTable = tableEnv.sqlQuery("select id, count(id) as cnt from inputTable group by id")
這裏Table API裏指定的字段,前面加了一個單引號’,這是Table API中定義的Expression類型的寫法,能夠很方便地表示一個表中的字段。
字段能夠直接所有用雙引號引發來,也能夠用半邊單引號+字段名的方式。之後的代碼中,通常都用後一種形式。
4.5 將DataStream 轉換成表
Flink容許咱們把Table和DataStream作轉換:咱們能夠基於一個DataStream,先流式地讀取數據源,而後map成樣例類,再把它轉成Table。Table的列字段(column fields),就是樣例類裏的字段,這樣就不用再麻煩地定義schema了。
4.5.1 代碼表達
代碼中實現很是簡單,直接用 tableEnv.fromDataStream() 就能夠了。默認轉換後的 Table schema 和 DataStream 中的字段定義一一對應,也能夠單獨指定出來。
這就容許咱們更換字段的順序、重命名,或者只選取某些字段出來,至關於作了一次map操做(或者Table API的 select操做)。
代碼具體以下:
val inputStream: DataStream[String] = env.readTextFile("sensor.txt") val dataStream: DataStream[SensorReading] = inputStream .map(data => { val dataArray = data.split(",") SensorReading(dataArray(0), dataArray(1).toLong, dataArray(2).toDouble) }) val sensorTable: Table = tableEnv.fromDataStreama(datStream) val sensorTable2 = tableEnv.fromDataStream(dataStream, 'id, 'timestamp as 'ts)
4.5.2 數據類型與 Table schema的對應
在上節的例子中,DataStream 中的數據類型,與表的 Schema 之間的對應關係,是按照樣例類中的字段名來對應的(name-based mapping),因此還能夠用as作重命名。
另一種對應方式是,直接按照字段的位置來對應(position-based mapping),對應的過程當中,就能夠直接指定新的字段名了。
基於名稱的對應:
val sensorTable = tableEnv.fromDataStream(dataStream, 'timestamp as 'ts, 'id as 'myId, 'temperature)
基於位置的對應:
val sensorTable = tableEnv.fromDataStream(dataStream, 'myId, 'ts)
Flink的 DataStream 和 DataSet API 支持多種類型。
組合類型,好比元組(內置Scala和Java元組)、POJO、Scala case類和Flink的Row類型等,容許具備多個字段的嵌套數據結構,這些字段能夠在Table的表達式中訪問。其餘類型,則被視爲原子類型。
元組類型和原子類型,通常用位置對應會好一些;若是非要用名稱對應,也是能夠的:元組類型,默認的名稱是 「_1」, 「_2」;而原子類型,默認名稱是 」f0」。
4.6 建立臨時視圖(Temporary View)
建立臨時視圖的第一種方式,就是直接從DataStream轉換而來。一樣,能夠直接對應字段轉換;也能夠在轉換的時候,指定相應的字段。
代碼以下:
tableEnv.createTemporaryView("sensorView", dataStream) tableEnv.createTemporaryView("sensorView", dataStream, 'id, 'temperature, 'timestamp as 'ts)
另外,固然還能夠基於Table建立視圖:
tableEnv.createTemporaryView("sensorView", sensorTable)
View和Table的Schema徹底相同。事實上,在Table API中,能夠認爲View 和 Table 是等價的。
4.7 輸出表
表的輸出,是經過將數據寫入 TableSink 來實現的。TableSink 是一個通用接口,能夠支持不一樣的文件格式、存儲數據庫和消息隊列。
具體實現,輸出表最直接的方法,就是經過 Table.insertInto() 方法將一個 Table 寫入註冊過的 TableSink 中。
4.7.1 輸出到文件
代碼以下:
// 註冊輸出表 tableEnv.connect( new FileSystem().path("…\\resources\\out.txt") ) // 定義到文件系統的鏈接 .withFormat(new Csv()) // 定義格式化方法,Csv格式 .withSchema(new Schema() .field("id", DataTypes.STRING()) .field("temp", DataTypes.DOUBLE()) ) // 定義表結構 .createTemporaryTable("outputTable") // 建立臨時表 resultSqlTable.insertInto("outputTable")
4.7.2 更新模式(Update Mode)
在流處理過程當中,表的處理並不像傳統定義的那樣簡單。
對於流式查詢(Streaming Queries),須要聲明如何在(動態)表和外部鏈接器之間執行轉換。與外部系統交換的消息類型,由更新模式(update mode)指定。
Flink Table API中的更新模式有如下三種:
- 追加模式(Append Mode)
在追加模式下,表(動態表)和外部鏈接器只交換插入(Insert)消息。
- 撤回模式(Retract Mode)
在撤回模式下,表和外部鏈接器交換的是:添加(Add)和撤回(Retract)消息。
其中:
- 插入(Insert)會被編碼爲添加消息;
- 刪除(Delete)則編碼爲撤回消息;
- 更新(Update)則會編碼爲,已更新行(上一行)的撤回消息,和更新行(新行)的添加消息。
在此模式下,不能定義key,這一點跟upsert模式徹底不一樣。
- Upsert(更新插入)模式
在Upsert模式下,動態表和外部鏈接器交換Upsert和Delete消息。
這個模式須要一個惟一的key,經過這個key能夠傳遞更新消息。爲了正確應用消息,外部鏈接器須要知道這個惟一key的屬性。
- 插入(Insert)和更新(Update)都被編碼爲Upsert消息;
- 刪除(Delete)編碼爲Delete信息
這種模式和 Retract 模式的主要區別在於,Update操做是用單個消息編碼的,因此效率會更高。
4.7.3 輸出到Kafka
除了輸出到文件,也能夠輸出到Kafka。咱們能夠結合前面Kafka做爲輸入數據,構建數據管道,kafka進,kafka出。
代碼以下:
// 輸出到 kafka tableEnv.connect( new Kafka() .version("0.11") .topic("sinkTest") .property("zookeeper.connect", "localhost:2181") .property("bootstrap.servers", "localhost:9092") ) .withFormat( new Csv() ) .withSchema( new Schema() .field("id", DataTypes.STRING()) .field("temp", DataTypes.DOUBLE()) ) .createTemporaryTable("kafkaOutputTable") resultTable.insertInto("kafkaOutputTable")
4.7.4 輸出到ElasticSearch
ElasticSearch的connector能夠在upsert(update+insert,更新插入)模式下操做,這樣就可使用Query定義的鍵(key)與外部系統交換UPSERT/DELETE消息。
另外,對於「僅追加」(append-only)的查詢,connector還能夠在 append 模式下操做,這樣就能夠與外部系統只交換 insert 消息。
es目前支持的數據格式,只有Json,而 flink 自己並無對應的支持,因此還須要引入依賴:
<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-json</artifactId> <version>1.10.0</version> </dependency>
代碼實現以下:
// 輸出到es tableEnv.connect( new Elasticsearch() .version("6") .host("localhost", 9200, "http") .index("sensor") .documentType("temp") ) .inUpsertMode() // 指定是 Upsert 模式 .withFormat(new Json()) .withSchema( new Schema() .field("id", DataTypes.STRING()) .field("count", DataTypes.BIGINT()) ) .createTemporaryTable("esOutputTable") aggResultTable.insertInto("esOutputTable")
4.7.5 輸出到MySql
Flink專門爲Table API的jdbc鏈接提供了flink-jdbc鏈接器,咱們須要先引入依賴:
<dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-jdbc_2.11</artifactId> <version>1.10.0</version> </dependency>
jdbc鏈接的代碼實現比較特殊,由於沒有對應的java/scala類實現 ConnectorDescriptor
,因此不能直接 tableEnv.connect()
。不過Flink SQL留下了執行DDL的接口:tableEnv.sqlUpdate()
對於jdbc的建立表操做,天生就適合直接寫DDL來實現,因此咱們的代碼能夠這樣寫:
// 輸出到 Mysql val sinkDDL: String = """ |create table jdbcOutputTable ( | id varchar(20) not null, | cnt bigint not null |) with ( | 'connector.type' = 'jdbc', | 'connector.url' = 'jdbc:mysql://localhost:3306/test', | 'connector.table' = 'sensor_count', | 'connector.driver' = 'com.mysql.jdbc.Driver', | 'connector.username' = 'root', | 'connector.password' = '123456' |) """.stripMargin tableEnv.sqlUpdate(sinkDDL) aggResultSqlTable.insertInto("jdbcOutputTable")
4.7.6 將錶轉換成DataStream
表能夠轉換爲DataStream或DataSet。這樣,自定義流處理或批處理程序就能夠繼續在 Table API或SQL查詢的結果上運行了。
將錶轉換爲DataStream或DataSet時,須要指定生成的數據類型,即要將表的每一行轉換成的數據類型。一般,最方便的轉換類型就是Row。固然,由於結果的全部字段類型都是明確的,咱們也常常會用元組類型來表示。
表做爲流式查詢的結果,是動態更新的。因此,將這種動態查詢轉換成的數據流,一樣須要對錶的更新操做進行編碼,進而有不一樣的轉換模式。
Table API 中表到 DataStream 有兩種模式:
- 追加模式(Append Mode)
用於表只會被插入(Insert)操做更改的場景
- 撤回模式(Retract Mode)
用於任何場景。有些相似於更新模式中Retract模式,它只有 Insert 和 Delete 兩類操做。
獲得的數據會增長一個Boolean類型的標識位(返回的第一個字段),用它來表示究竟是新增的數據(Insert),仍是被刪除的數據(老數據, Delete)。
代碼實現以下:
val resultStream: DataStream[Row] = tableEnv.toAppendStream[Row](resultTable) val aggResultStream: DataStream[(Boolean, (String, Long))] = tableEnv.toRetractStream[(String, Long)](aggResultTable) resultStream.print("result") aggResultStream.print("aggResult")
因此,沒有通過groupby之類聚合操做,能夠直接用 toAppendStream 來轉換;而若是通過了聚合,有更新操做,通常就必須用 toRetractDstream。
4.7.7 Query的解釋和執行
Table API提供了一種機制來解釋(Explain)計算表的邏輯和優化查詢計劃。這是經過TableEnvironment.explain(table)方法或TableEnvironment.explain()方法完成的。
explain方法會返回一個字符串,描述三個計劃:
- 未優化的邏輯查詢計劃
- 優化後的邏輯查詢計劃
- 實際執行計劃
咱們能夠在代碼中查看執行計劃:
val explaination: String = tableEnv.explain(resultTable) println(explaination)
Query的解釋和執行過程,老planner和 blink planner 大致是一致的,又有所不一樣。總體來說,Query都會表示成一個邏輯查詢計劃,而後分兩步解釋:
- 優化查詢計劃
- 解釋成 DataStream 或者 DataSet程序
而 Blink 版本是批流統一的,因此全部的Query,只會被解釋成DataStream程序;另外在批處理環境 TableEnvironment 下,Blink版本要到 tableEnv.execute() 執行調用纔開始解釋。
巨人的肩膀
一、http://www.atguigu.com/
二、https://www.bilibili.com/video/BV12k4y1z7LM?from=search&seid=953051020130358915
三、https://blog.csdn.net/u013411339/article/details/93267838
小結
本篇文章主要用五千多字,爲你們帶來迅速入門並掌握 FlinkSQL 的技巧,包含FlinkSQL出現的背景介紹以及與 Table API 的區別,API調用方式更是介紹的很是詳細全面,但願小夥伴們在看了以後可以及時複習總結,尤爲是初學者。好了,本篇文章 over,你們看了以後有任何的疑惑均可以私信做者,我看到都會一一解答。下一篇我會在本篇的基礎上爲你們介紹一些流處理中的特殊概念,敬請期待|ू・ω・` ),你知道的越多,你不知道的也越多,我是Alice,咱們下一期見!
文章持續更新,能夠微信搜一搜「 猿人菌 」第一時間閱讀,思惟導圖,大數據書籍,大數據高頻面試題,海量一線大廠面經…關注這個在大數據領域冉冉升起的新星!
本文同步分享在 博客「Alice菌」(CSDN)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。