「Flink」理解流式處理重要概念

時間 2020-02-03

標籤 flink 理解處理重要概念简体版

原文原文鏈接

什麼是流式處理呢？

這個問題其實咱們大部分時候是沒有考慮過的，大多數，咱們是把流式處理和實時計算放在一塊兒來講的。咱們先來了解下，什麼是數據流。數據庫

數據流（事件流）

數據流是無邊界數據集的抽象

咱們以前接觸的數據處理，大多都都是有界的。例如：處理某天的數據、某個季度的數據等
無界意味着數據是無限地、持續增加的
數據流會隨着時間的推移，源源不斷地加入進來

數據流無處再也不

信息卡交易
電商購物
快遞
網絡交換機的流向數據
設備傳感器發出的數據
…
這些數據都是無窮無盡的
每一件事情，均可以當作事件序列

數據流是有序的

數據的到來老是有個前後順序

數據流是不可變的

事件一旦發生，就不能被改變
它陳述了某一個時刻的事實

數據流是能夠重播的

爲了處理的一些問題、糾正過去的錯誤，能夠重跑數據流
藉助於Kafka，咱們能夠從新消費幾個月以前的原始數據流

流式處理

流式處理就是指實時地處理一個或多個事件流。它是一種編程範式。其餘編程領域，主要有3種編程範式：編程

請求與響應

延遲最小的一種方式，響應時間要求亞毫秒級到毫秒之間
響應時間通常分穩定
發出請求，等待響應（大部分的JavaEE同窗，都是開發這一類編程範式的應用），其實就是OLTP

批處理

特色：高延遲、高吞吐
通常是固定某個時刻開始啓動執行，讀取全部的數據，而後輸出接口
每次讀取到的都是舊數據
主要應用在DWH或BI中

流式處理

特色：介於上述二者之間
流式處理可讓業務報告保持更新，持續響應

流的定義不依賴某個框架，只要儲蓄從一個無邊界數據集中讀取數據，並對它們進行處理生成結果，就是進行流式處理。重點是：整個過程必須是持續的。設計模式

流式處理中的時間

上述咱們已經說過了，數據流都是有序的。某一時刻的數據是肯定的。時間是流式處理中很是重要的概念。大部分流式應用的操做都是基於時間窗口的。緩存

流式系統通常包含如下幾個時間概念（熟悉Flink的同窗應該會很熟悉）：網絡

事件時間（Eventtime）

事件實際發生的時間
用戶通常只對事件發生時間感興趣

日誌追加時間

日誌追加時間是指事件保存到事件存儲源的時間
例如：數據是什麼到達Kafka的（Kafka是能夠啓用自動添加時間戳功能的）

處理時間

流式處理應用接收到事件後，要對齊進行處理的時間
處理時間取決於流式處理應用什麼時候讀取到這個時間
若是應用程序使用了兩個線程來讀取同一個事件，這個時間戳可能會不同
這個時間戳很是不可靠，應該避免使用它

狀態

若是流式處理是來一個事件就處理一個事件，那麼流式處理就很簡單。但若是操做中包含了多個事件，流式處理就有意思了。例如：咱們想在流式處理中統計北京用戶的訂單數量、消費金額等等。此時，就不能光處理單個事件了，咱們須要獲取更多的事件。事件與事件之間的信息就稱之爲狀態。例如簡單的，求某個類型的訂單數等。併發

這些狀態通常就保存在流式處理程序本地變量（本地內存）中，例如：使用HashMap來保存計數。但這種作法是很不可靠的，流式處理處理的是無界數據集，一旦應用程序出現異常，就會出現狀態丟失，這是咱們說不能接受的。因此，每一種流式計算框架都會很當心地持久化狀態。若是應用程序重啓，須要將這些數據恢復。負載均衡

流式處理通常包含兩種狀態：框架

本地狀態

這種狀態只能被應用程序實例訪問（不過Flink 1.9版本是能夠外部來訪問本地狀態的）
內嵌到應用程序的數據庫中進行維護和管理
特色：速度快，但受內存大小的限制，因此，不少流式處理系統都將數據拆分到多個子流中處理

外部狀態

用外部存儲來處理，通常使用NoSQL系統，例如：Cassadra
特色：沒有大小限制，能夠被應用程序多個實例訪問、甚至外部應用訪問，但引入額外的系統會形成延遲、複雜性（例如：要維護內部和外部狀態一致性問題）

時間窗口

大部分針對流的操做都是基於時間窗口的。例如：計算一週內銷量最好的產品。兩個流的合併也是基於時間窗口的。流式系統會合併發生在相同時間段上的事件。窗口是有類型的。如下幾點是咱們設計窗口須要考慮的：性能

窗口的大小

是基於5分鐘計算仍是基於15分鐘、甚至是一天
窗口越小，就能越快地發現變動，不過噪聲也就越多
窗口越大，變動就跟平滑，不過延遲也越嚴重

窗口的移動頻率（移動間隔）

5分鐘的窗口，能夠1分鐘計算一次，或者每秒鐘計算一次，或者每當有新事件到達時計算一次
若是「移動頻率」與窗口大小相等，這種稱爲滾動窗口（tumbling window）
若是窗口隨着每一條記錄移動，這種狀況稱爲滑動窗口（sliding window）

窗口的可更新時長

假設：計算了 00:00 – 00:05 之間的訂單總數，一個小時後，又獲得了一些「事件時間」是 00:02的事件（例如：由於網絡通訊故障，這個消息晚到了一段時間），這種狀況，是否須要更新 00:00 – 00:05 這個窗口的結果呢？或者就不處理了？
理想狀況下，能夠定義一個時間段，只要在這個時間段內，事件能夠被添加到對應的時間片斷裏。例如：若是事件處於4個小時之內，就更新，不然，就忽略掉。