Flink 1.12 Release 文檔解讀

注:本文翻譯的時候還沒正式 Release 1.12,處於 1.12.0-rc3 階段php

Flink 從入門到精通 系列文章python

本文的 Release 文檔描述了在 Flink 1.11 和 Flink 1.12 之間更改的重要方面,例如配置,行爲或依賴項。若是您打算將 Flink 版本升級到 1.12,請仔細閱讀這些說明。
sql

API

移除掉 ExecutionConfig 中過時的方法docker

移除掉了 ExecutionConfig#isLatencyTrackingEnabled 方法, 你可使用 ExecutionConfig#getLatencyTrackingInterval 方法代替.windows

移除掉了 ExecutionConfig#enable/disableSysoutLoggingExecutionConfig#set/isFailTaskOnCheckpointError 過時的方法。app

移除掉了 -q CLI 參數。ide

移除掉過時的 RuntimeContext#getAllAccumulators 方法函數

過時的 RuntimeContext#getAllAccumulators 方法被移除掉了,請使用 RuntimeContext#getAccumulator 方法做爲代替。性能

因爲數據丟失的風險把 CheckpointConfig#setPreferCheckpointForRecovery 方法標爲過時測試

CheckpointConfig#setPreferCheckpointForRecovery 方法標記爲過時了, 由於做業在進行恢復時,若是使用較舊的 Checkpoint 狀態而不使用新的 Save point 狀態數據,可能會致使數據丟失。

FLIP-134: DataStream API 的批處理執行

  • 容許在 KeyedStream.intervalJoin() 的配置時間屬性,在 Flink 1.12 以前 KeyedStream.intervalJoin() 算子的時間屬性依賴於全局設置的時間屬性。在 Flink 1.12 中咱們能夠在 IntervalJoin 方法後加上 inProcessingTime()inEventTime() ,這樣 Join 就再也不依賴於全局的時間屬性。

  • 在 Flink 1.12 中將 DataStream API 的 timeWindow() 方法標記爲過時,請使用 window(WindowAssigner)TumblingEventTimeWindowsSlidingEventTimeWindowsTumblingProcessingTimeWindows 或者 SlidingProcessingTimeWindows

  • StreamExecutionEnvironment.setStreamTimeCharacteristic()TimeCharacteristic 方法標記爲過時。在 Flink 1.12 中,默認的時間屬性改變成 EventTime 了,因而你再也不須要該方法去開啓 EventTime 了。在 EventTime 時間屬性下,你使用 processing-time 的 windows 和 timers 也都依舊會生效。若是你想禁用水印,請使用 ExecutionConfig.setAutoWatermarkInterval(long) 方法。若是你想使用 IngestionTime,請手動設置適當的 WatermarkStrategy。若是你使用的是基於時間屬性更改行爲的通用 'time window' 算子(eg: KeyedStream.timeWindow()),請使用等效操做明確的指定處理時間和事件時間。

  • 容許在 CEP PatternStream 上顯式配置時間屬性在 Flink 1.12 以前,CEP 算子裏面的時間依賴於全局配置的時間屬性,在 1.12 以後能夠在 PatternStream 上使用 inProcessingTime()inEventTime() 方法。

API 清理

  • 移除了 UdfAnalyzer 配置,移除了 ExecutionConfig#get/setCodeAnalysisMode 方法和 SkipCodeAnalysis 類。

  • 移除了過時的 DataStream#split 方法,該方法從很早的版本中已經標記成爲過時的了,你可使用 Side Output 來代替。

  • 移除了過時的 DataStream#fold() 方法和其相關的類,你可使用更加高性能的 DataStream#reduce

擴展 CompositeTypeSerializerSnapshot 以容許複合序列化器根據外部配置遷移

再也不推薦使用 CompositeTypeSerializerSnapshot 中的 isOuterSnapshotCompatible(TypeSerializer) 方法,推薦使用 OuterSchemaCompatibility#resolveOuterSchemaCompatibility(TypeSerializer) 方法。

將 Scala Macros 版本升級到 2.1.1

Flink 如今依賴 Scala Macros 2.1.1,意味着再也不支持 Scala 版本小於 2.11.11。

SQL

對 aggregate 函數的 SQL DDL 使用新類型推斷

aggregate 函數的 CREATE FUNCTION DDL 如今使用新類型推斷,可能有必要將現有實現更新爲新的反射類型提取邏輯,將 StreamTableEnvironment.registerFunction 標爲過時。

更新解析器模塊 FLIP-107

如今 METADATA 屬於保留關鍵字,記得使用反引號轉義。

將內部 aggregate 函數更新爲新類型

使用 COLLECT 函數的 SQL 查詢可能須要更新爲新類型的系統。

Connectors 和 Formats

移除 Kafka 0.10.x 和 0.11.x Connector

在 Flink 1.12 中,移除掉了 Kafka 0.10.x 和 0.11.x Connector,請使用統一的 Kafka Connector(適用於 0.10.2.x 版本以後的任何 Kafka 集羣),你能夠參考 Kafka Connector 頁面的文檔升級到新的 Flink Kafka Connector 版本。

CSV 序列化 Schema 包含行分隔符

csv.line-delimiter 配置已經從 CSV 格式中移除了,由於行分隔符應該由 Connector 定義而不是由 format 定義。若是用戶在之前的 Flink 版本中一直使用了該配置,則升級到 Flink 1.12 時,應該刪除該配置。

升級 Kafka Schema Registry Client 到 5.5.0 版本

flink-avro-confluent-schema-registry 模塊再也不在 fat-jar 中提供,你須要顯式的在你本身的做業中添加該依賴,SQL-Client 用戶可使用flink-sql-avro-confluent-schema-registry fat jar。

將 Avro 版本從 1.8.2 升級到 1.10.0 版本

flink-avro 模塊中的 Avro 版本升級到了 1.10,若是出於某種緣由要使用較舊的版本,請在項目中明確降級 Avro 版本。

注意:咱們觀察到,與 1.8.2 相比,Avro 1.10 版本的性能有所降低,若是你擔憂性能,而且可使用較舊版本的 Avro,那麼請降級 Avro 版本。

爲 SQL Client 打包 flink-avro 模塊時會建立一個 uber jar

SQL Client jar 會被重命名爲 flink-sql-avro-1.12.jar,之前是 flink-avro-1.12-sql-jar.jar,並且再也不須要手動添加 Avro 依賴。

Deployment(部署)

默認 Log4j 配置了日誌大小超過 100MB 滾動

默認的 log4j 配置如今作了變動:除了在 Flink 啓動時現有的日誌文件滾動外,它們在達到 100MB 大小時也會滾動。Flink 總共保留 10 個日誌文件,從而有效地將日誌目錄的總大小限制爲 1GB(每一個 Flink 服務記錄到該目錄)。

默認在 Flink Docker 鏡像中使用 jemalloc

在 Flink 的 Docker 鏡像中,jemalloc 被用做默認的內存分配器,以減小內存碎片問題。用戶能夠經過將 disable-jemalloc 標誌傳遞給 docker-entrypoint.sh 腳原本回滾使用 glibc。有關更多詳細信息,請參閱 Docker 文檔上的 Flink。

升級 Mesos 版本到 1.7

將 Mesos 依賴版本從 1.0.1 版本升級到 1.7.0 版本。

若是 Flink 進程在超時後仍未中止,則發送 SIGKILL

在 Flink 1.12 中,若是 SIGTERM 沒法成功關閉 Flink 進程,咱們更改了獨立腳本的行爲以發出 SIGKILL。

介紹非阻塞做業提交

提交工做的語義略有變化,提交調用幾乎當即返回,而且做業處於新的 INITIALIZING 狀態,看成業處於該狀態時,對做業作 Savepoint 或者檢索做業詳情信息等操做將不可用。

一旦建立了該做業的 JobManager,該做業就處於 CREATED 狀態,而且全部的調用都可用。

Runtime

FLIP-141: Intra-Slot Managed Memory 共享

python.fn-execution.buffer.memory.sizepython.fn-execution.framework.memory.size 的配置已刪除,所以再也不生效。除此以外,python.fn-execution.memory.managed 默認的值更改成 true, 所以默認狀況下 Python workers 將使用託管內存。

FLIP-119 Pipelined Region Scheduling

從 Flink 1.12 開始,將以 pipelined region 爲單位進行調度。pipelined region 是一組流水線鏈接的任務。這意味着,對於包含多個 region 的流做業,在開始部署任務以前,它再也不等待全部任務獲取 slot。取而代之的是,一旦任何 region 得到了足夠的任務 slot 就能夠部署它。對於批處理做業,將不會爲任務分配 slot,也不會單獨部署任務。取而代之的是,一旦某個 region 得到了足夠的 slot,則該任務將與全部其餘任務一塊兒部署在同一區域中。

可使用 jobmanager.scheduler.scheduling-strategy:legacy 啓用舊的調度程序。

RocksDB optimizeForPointLookup 致使丟失時間窗口

默認狀況下,咱們會將 RocksDB 的 ReadOptions 的 setTotalOrderSeek 設置爲true,以防止用戶忘記使用 optimizeForPointLookup。同時,咱們支持經過RocksDBOptionsFactory 自定義 ReadOptions。若是觀察到任何性能降低,請將 setTotalOrderSeek 設置爲 false(根據咱們的測試,這是不可能的)。

自定義 OptionsFactory 設置彷佛對 RocksDB 沒有影響

過時的 OptionsFactory 和 ConfigurableOptionsFactory 類已移除,請改用 RocksDBOptionsFactory 和 ConfigurableRocksDBOptionsFactory。若是有任何擴展 DefaultConfigurableOptionsFactory 的類,也請從新編譯你的應用程序代碼。

基於 Apache Flink 的實時監控告警系統關於數據中臺的深度思考與總結(乾乾貨)日誌收集Agent,陰暗潮溼的地底世界
2020 繼續踏踏實實的作好本身


公衆號(zhisheng)裏回覆 面經、ClickHouse、ES、Flink、 Spring、Java、Kafka、監控 等關鍵字能夠查看更多關鍵字對應的文章。

點個贊+在看,少個 bug ????
相關文章
相關標籤/搜索