基於 Flink 1.9 講解的專欄,涉及入門、概念、原理、實戰、性能調優、系統案例的講解。git
<!--more-->架構
掃碼下面專欄二維碼能夠訂閱該專欄併發
首發地址:http://www.54tianzhisheng.cn/2019/11/15/flink-in-action/框架
專欄地址:https://gitbook.cn/gitchat/column/5dad4a20669f843a1a37cb4f運維
隨着大數據的不斷髮展,對數據的及時性要求愈來愈高,實時場景需求也變得愈來愈多,主要分下面幾大類:高併發
爲了知足這些實時場景的需求,衍生出很多計算引擎框架。現有市面上的大數據計算引擎的對好比下圖所示:性能
能夠發現不管從 Flink 的架構設計上,仍是從其功能完整性和易用性來說都是領先的,再加上 Flink 是阿里巴巴主推的計算引擎框架,因此從去年開始就愈來愈火了!學習
目前,阿里巴巴、騰訊、美團、華爲、滴滴出行、攜程、餓了麼、愛奇藝、有贊、惟品會等大廠都已經將 Flink 實踐於公司大型項目中,帶起了一波 Flink 風潮,勢必也會讓 Flink 人才市場產生供不該求的招聘現象。大數據
介紹實時計算常見的使用場景,講解 Flink 的特性,而且對比了 Spark Streaming、Structured Streaming 和 Storm 等大數據處理引擎,而後準備環境並經過兩個 Flink 應用程序帶你們上手 Flink。spa
深刻講解 Flink 中 Time、Window、Watermark、Connector 原理,並有大量文章篇幅(含詳細代碼)講解如何去使用這些 Connector(好比 Kafka、ElasticSearch、HBase、Redis、MySQL 等),而且會講解使用過程當中可能會遇到的坑,還教你們如何去自定義 Connector。
講解 Flink 中 State、Checkpoint、Savepoint、內存管理機制、CEP、Table/SQL API、Machine Learning 、Gelly。在這篇中不只只講概念,還會講解如何去使用 State、如何配置 Checkpoint、Checkpoint 的流程和如何利用 CEP 處理復瑣事件。
重點介紹 Flink 做業上線後的監控運維:如何保證高可用、如何定位和排查反壓問題、如何合理的設置做業的並行度、如何保證 Exactly Once、如何處理數據傾斜問題、如何調優整個做業的執行效率、如何監控 Flink 及其做業?
教你們如何分析實時計算場景的需求,並使用 Flink 裏面的技術去實現這些需求,好比實時統計 PV/UV、實時統計商品銷售額 TopK、應用 Error 日誌實時告警、機器宕機告警。這些需求如何使用 Flink 實現的都會提供完整的代碼供你們參考,經過這些需求你能夠學到 ProcessFunction、Async I/O、廣播變量等知識的使用方式。
講解大型流量下的真實案例:如何去實時處理海量日誌(錯誤日誌實時告警/日誌實時 ETL/日誌實時展現/日誌實時搜索)、基於 Flink 的百億數據實時去重實踐(從去重的通用解決方案 --> 使用 BloomFilter 來實現去重 --> 使用 Flink 的 KeyedState 實現去重)。
原文出處:zhisheng的博客,歡迎關注個人公衆號:zhisheng