Flink 做爲現代數據倉庫的統一引擎：Hive 集成生產就緒！

時間 2020-05-30

標籤 flink 做爲現代數據倉庫統一引擎 hive 集成生產就緒欄目 Hadoop 简体版

原文原文鏈接

在2020年，你的數據倉庫和基礎設施須要知足哪些需求？html

咱們總結了幾下幾點：apache

首先，當下的企業正快速轉向更實時化的模式，這要求企業具有對線上流式數據進行低延遲處理的能力，以知足實時（real-time）或近實時（near-real-time）的數據分析需求。人們對從數據產生到數據可用之間延遲的容忍度愈來愈低。曾經幾個小時甚至幾天的延誤再也不被接受。用戶期待的是幾分鐘甚至幾秒鐘的數據端到端體驗。架構

第二，數據基礎設施須要具有同時處理線上和線下數據的能力，兩種模式在實際應用中都不可或缺。除了上面提到的流處理，用戶也須要批處理作即席查詢（ad-hoc query）和數據挖掘。數據基礎設施不該該要求用戶二選一，而應該提供兩個選項而且都是高質量的。框架

第三，數據工程師、數據科學家、分析師和運維人員都在渴望一套統一的數據技術棧，以便更輕鬆的使用。大數據領域的技術棧已經支離破碎不少年了，企業可能有一套流處理系統，一套批處理系統，一套線上數據分析系統。這基本都是因爲當年流處理框架不夠成熟而被迫採用過期的 lambda 架構形成的問題。如今不一樣了，流處理已成爲主流，終端用戶沒必要再學習多種技能和維護各類複雜的工具和數據處理管道（data pipeline）。用戶渴望的是一套統一的簡單易學易維護的方案。運維

若是你對以上問題深有同感，那說明這篇文章很適合你。咱們來看看如何真正解決這個問題。函數

接下來我將帶各位瞭解下 Flink 與 Hive 生產級別的整合工做。工具

Flink 與 Hive 生產級整合

Flink 一直遵循「流優先，批是流的一個特例」的思想理念。在這一思想的指導下，Flink 將最早進的流式處理技術運用到批處理中，使得 Flink 的批處理能力一早就使人印象深入。特別是在 Flink 1.10 中咱們基本完成了從1.9開始的對 Blink planner 的整合工做後，Flink SQL 的批處理能力更上一層樓。oop

Hive 在大數據生態中已成爲標準的數據倉庫組件。它不只僅是一個 SQL 引擎，也是一個數據管理系統。但因爲自身的侷限，Hive 在當下面臨很大的挑戰，也沒法知足的用戶需求。學習

基於此，咱們從 Flink 1.9 推出了 Flink 和 Hive 整合的 beta 版本。在過去幾個月中，咱們基於用戶的反饋，在各個方面都對產品進行了增強。我很高興的宣佈，Flink 和 Hive 的整合在 Flink 1.10 版本中能實現生產可用！大數據

下面來爲你們介紹一些細節。