如何跑通第一個 SQL 做業

時間 2021-02-15

標籤數據庫編輯器函數阿里雲 spa 3d blog 接口內存欄目 SQL 简体版

原文原文鏈接

簡介：本文由阿里巴巴技術專家周凱波（寶牛）分享，主要介紹如何跑通第一個SQL。

1、SQL的基本概念

1.SQL 分類數據庫

SQL分爲四類，分別是數據查詢語言（DQL）、數據操縱語言（DML）、數據定義（DDL）語言和數據控制語言（DCL）。今天將介紹前三種語言的使用。編輯器

接下來介紹幾個基本概念。函數

2.SQL 開發阿里雲

● Scripts，即SQL文本。在SQL文本里面能夠寫上文介紹的前三種語言；
● Schema，即元數據。SQL裏面須要使用的表和函數，是經過Schema進行定義的；
● Artifacts，即UDF Jar包；spa

3.Catalog3d

在 Flink SQL裏，Catalog是管理元數據的。Catalog經過Catalog.DB.Table來定位一張表。除了DB和Table，Catalog還能註冊函數，如UDF、UDTF和UDAF。blog

在Flink Catalog裏，有三種Catalog實現：接口

● 第一個是GenericInMemoryCatalog，是內存版的Catalog。日常在使用 Flink SQL的時候，默認是內存版的Catalog。當程序運行結束，第二次從新運行的時候，會從新生成一個Catalog實例。
● 第二個是HiveCatalog，Flink裏比較好的支持了HiveCatalog，能夠從Hive HMS裏讀取元數據，同時也能夠往Hive裏註冊表，寫數據到Hive裏面去。
● 第三個Catalog是 VVP平臺裏面開發的Catalog，即VvpCatalog，它實現了Flink Catalog的接口，底層是使用的數據庫。ip

4.Deployment內存

Deployment是一個做業的描述，目前有兩種任務類型，JAR和SQL。

Deployment上有升級策略（Upgrade strategy）和恢復策略（Restore strategy）。Upgrade strategy是指Deployment運行後，用戶能夠對Deployment的參數進行修改，這個修改如何影響Deployment的運行就是由不一樣的升級策略決定的；Restore strategy 指啓動 Flink任務時，是否從 Savepoint/Checkpoint進行恢復就是不一樣的恢復策略。

Flink的版本和配置，經常使用的Flink的參數均可以在這裏進行配置。例如：Task Managers 數量，Jobmanager和Taskmanager 的 CPU 和內存等。

Deployment上除了做業描述外，還有指望狀態和實際狀態。指望狀態是指用戶所指望的目標狀態，例如當要將運行中的做業中止時，指望狀態就是Canceled；操做完成的實際運行狀態就是實際狀態。

總的來講，Deployment是一個任務的描述模板。VVP平臺內部的狀態機會根據Deployment的指望狀態和實際狀態來控制做業的實際運行。

5.Job

Deployment啓動時會生成一個Job，這個Job對應一個具體的 Flink Job。同一時間，一個Deployment上只會有一個正在運行的Job。

2、SQL的語法說明

1.語法說明

首先看下圖的語句，分別是建立源表和建立結果表。

下圖是註冊函數。函數的註冊分爲兩步，第一步上傳JAR包，而後在系統上能夠勾選自動註冊；第二種是使用 Flink 語法進行手工註冊。

使用函數有兩種方式，第一是內置函數的使用，以下圖UPPER是 Flink 自帶的函數；第二種是自定義函數，像MyScalarFunc。

在VVP平臺裏，也支持 Flink 裏的Temporary Table，能夠將它理解爲臨時表，只在當前會話週期內有效。在下圖例子中，咱們建立了兩個Temporary Table，讀取datagen_source表中的數據，輸出到blackhole_sink表。

下圖是Temporary View的語法示例。前面兩段是同樣的臨時表；第三條語句是建立了一個tmp_view，它表明從Datagen_source的查詢。在Flink裏面Temporary View能夠理解爲讓SQL的書寫變得更簡單，它不會對數據進行一個持久化，和數據庫裏面View概念是不同的。第四條語句是從 view裏面讀取數據並寫入到sink表裏。