Kafka 文檔（介紹）

時間 2019-11-09

標籤 kafka 文檔介紹欄目 Kafka 简体版

原文原文鏈接

介紹

Apache Kafka®是一個分佈式流平臺，這究竟是什麼意思？html

流平臺有三個關鍵功能：數據庫

發佈和訂閱記錄流，相似於消息隊列或企業消息傳遞系統
以容錯持久的方式存儲記錄流
在記錄流發生的時候處理它們

Kafka一般用於兩大類應用程序：apache

構建實時流數據管道，在系統或應用程序之間可靠地獲取數據
構建對數據流進行轉換或響應的實時流應用程序

要了解Kafka是如何完成這些事情的，讓咱們從底層深刻探究Kafka的能力。api

第一步瞭解幾個概念：安全

Kafka做爲集羣運行在一個或多個能夠跨多個數據中心的服務器上
Kafka集羣以主題的類別存儲記錄流
每一個記錄由一個鍵、一個值和一個時間戳組成

Kafka有四個核心API：服務器

生產者API容許應用程序將記錄流發佈到一個或多個Kafka主題
消費者API容許應用程序訂閱一個或多個主題並處理生產給它們的記錄流
流API容許應用程序充當流處理器，消費來自一個或多個主題的輸入流，並生產輸出流到一個或多個輸出主題，有效地將輸入流轉換爲輸出流。
鏈接器API容許構建和運行可重用的生產者或消費者，將Kafka主題與現有的應用程序或數據系統鏈接起來，例如，鏈接關係數據庫的鏈接器可能會捕獲對錶的全部更改。

在Kafka中，客戶機和服務器之間的通訊是使用簡單的、高性能的、與語言無關的TCP協議完成的，該協議是版本化的，並與舊版本保持向後兼容性，咱們爲Kafka提供一個Java客戶端，可是客戶端可使用多種語言。負載均衡

主題和日誌

讓咱們首先深刻討論Kafka爲記錄流提供的核心抽象——主題。異步

主題是發佈記錄的類別或提要名稱，Kafka中的主題老是多訂閱者，也就是說，一個主題能夠有0個、1個或多個訂閱寫入到它的數據的消費者。分佈式

對於每一個主題，Kafka集羣維護一個相似於這樣的分區日誌：函數

每一個分區都是一個有序的、不可變的記錄序列，並不斷地附加到一個結構化的提交日誌中，分區中的記錄都被分配了一個名爲偏移量的連續id號，該偏移量唯一地標識分區中的每一個記錄。

Kafka集羣能夠持久地保存全部已發佈的記錄—不管它們是否被消費—並使用可配置的保留期。例如，若是保留策略被設置爲兩天，那麼在記錄發佈後的兩天內能夠消費它，而後將其丟棄以釋放空間，Kafka在數據大小方面的性能其實是恆定的，所以長時間存儲數據不是問題。

事實上，在每一個消費者的基礎上保留的惟一元數據是該消費者在日誌中的偏移量或位置，這個偏移量由消費者控制：一般消費者會在讀取記錄時線性地增長其偏移量，可是，實際上，因爲位置是由消費者控制的，它能夠按照本身喜歡的順序消費記錄。例如，消費者能夠重置到一個較早的偏移量來從新處理過去的數據，或者跳轉到最近的記錄並從「如今」開始消費。

這種特性的組合意味着Kafka消費者很是廉價——他們能夠來來去去，不會對集羣或其餘消費者形成太大影響。例如，你可使用咱們的命令行工具「跟蹤」任何主題的內容，而無需更改任何現有消費者消費的內容。

日誌中的分區提供有幾個用途。首先，它們容許日誌擴展到超出適合單個服務器的大小，每一個單獨的分區必須適合承載它的服務器，可是一個主題可能有許多分區，所以它能夠處理任意數量的數據，第二，它們做爲並行的單位——稍後再進一步探討。

分佈

日誌的分區分佈在Kafka集羣中的服務器上，每一個服務器處理數據和共享分區的請求，每一個分區在可配置的服務器數量上覆制，用於容錯。

每一個分區都有一個充當「leader」的服務器和一個或多個充當「followers」的服務器，leader處理分區的全部讀寫請求，而follower被動地複製leader，若是leader故障了，followers中的一個將自動成爲新的leader，每一個服務器做爲它的一些分區的leader，而做爲其餘分區的follower，因此集羣中的負載是很平衡的。

地理複製

Kafka MirrorMaker爲集羣提供地理複製支持，使用MirrorMaker，消息能夠跨多個數據中心或雲區域複製，你能夠在主動/被動場景中使用它進行備份和恢復，或者在活動/活動場景中，將數據放置到離用戶更近的位置，或者支持數據局部性需求。

生產者

生產者將數據發佈到他們選擇的主題，生成器負責選擇要將哪一個記錄分配給主題中的哪一個分區，這能夠以循環方式完成，只是爲了平衡負載，也能夠根據一些語義分區函數（好比基於記錄中的某個鍵）完成，使用分區的更多信息參見第二章！

消費者

消費者用消費者組名稱來標記本身，而且將發佈到主題的每一個記錄都被傳遞到每一個訂閱消費者組中的一個消費者實例，使用者實例能夠在單獨的進程中，也能夠在單獨的機器上。

若是全部消費者實例都有相同的消費者組，那麼記錄將有效地在消費者實例上進行負載均衡。

若是全部消費者實例都有不一樣的消費者組，那麼每一個記錄將被廣播到全部消費者進程。

一個負載四個分區(P0-P3)和兩個消費者組的兩個Kafka集羣服務器，消費者組A有兩個消費者實例，而B組有四個。

然而，更常見的是，咱們發現主題有少許的消費者組，每一個「邏輯訂閱者」對應一個消費者組，每一個組都由許多消費者實例組成，以實現可擴展性和容錯，這只不過是發佈-訂閱語義，其中訂閱服務器是一個消費者集羣，而不是一個進程。

在Kafka中實現消費的方式是在消費者實例中劃分日誌中的分區，以便每一個實例在任什麼時候候都是「公平共享」分區的惟一消費者，維持組中成員資格的過程是由Kafka協議動態處理的，若是新實例加入組，它們將從組的其餘成員接管一些分區，若是一個實例消亡，那麼它的分區將被分配給其餘實例。

Kafka只對一個分區內的記錄提供總的順序，而不是在主題中的不一樣分區之間，對大多數應用程序來講，每一個分區排序結合按鍵對數據進行分區的能力就足夠了，可是，若是你須要記錄上的總順序，這能夠經過只有一個分區的主題實現，儘管這意味着每一個消費者組只有一個消費者進程。

多租戶

你能夠將Kafka部署爲多租戶解決方案，經過配置哪一個主題能夠生產或消費數據來啓用多租戶，也有對配額的操做支持。管理員能夠對請求定義和強制配額，以控制客戶端使用的代理資源，有關更多信息，請參見安全文檔。

保證

在高級Kafka中提供如下保證：

生產者發送給特定主題分區的消息將按照發送的順序附加，也就是說，若是一個記錄M1是由與記錄M2相同的生產者發送的，而M1是先發送的，那麼M1的偏移量將小於M2，並出如今日誌的前面。
一個消費者實例會根據存儲在日誌中的順序來查看記錄。
對於複製因子N的主題，咱們能夠容忍最多N-1個服務器失敗，而不會丟失提交給日誌的任何記錄。

有關這些保證的更多細節將在文檔的設計部分中給出。

Kafka做爲一個消息系統

Kafka的流概念與傳統的企業消息傳遞系統相好比何?

消息傳遞傳統上有兩種模式：隊列和發佈-訂閱。在隊列中，消費者池能夠從服務器讀取數據，每一個記錄都將被髮送到其中一個，在發佈-訂閱中，記錄被廣播給全部的消費者，這兩種模式都有優勢和缺點。隊列的優點在於，它容許你在多個消費者實例上劃分數據處理，從而使你可以擴展處理，不幸的是，隊列不是多訂閱的—一旦一個進程讀取了數據，數據將消失。發佈-訂閱容許你向多個進程廣播數據，可是因爲每一個消息都傳遞給每一個訂閱服務器，所以沒有擴展處理的方法。

Kafka中的消費者組概念歸納了這兩個概念，與隊列同樣，消費者組容許你將處理劃分爲多個進程集合（消費者組的成員），與發佈訂閱同樣，Kafka容許你向多個消費者組廣播消息。

Kafka模型的優勢是每一個主題都具備這兩種特性——它能夠擴展處理而且也是多訂閱——不須要選擇其中之一或另外一個。

與傳統的消息傳遞系統相比，Kafka也有更強的順序保證。

傳統隊列在服務器上保留記錄的順序，若是多個消費者從隊列中消費，那麼服務器按存儲記錄的順序分發記錄，然而，儘管服務器按順序分發記錄，但記錄是異步交付給消費者的，所以它們可能在不一樣的消費者上以無序的方式到達，這實際上意味着記錄的順序會在並行使用時丟失。消息傳遞系統一般是經過「獨佔消費者」的概念來工做的，它只容許一個進程從隊列中消費，但這固然意味着在處理過程當中沒有並行性。

Kafka是更好的，經過將並行性的概念劃分爲主題內的分區，Kafka可以在消費者進程池中同時提供順序保證和負載平衡。這是經過將主題中的分區分配給消費者組中的消費者來實現的，這樣每一個分區都由組中的一個消費者使用，經過這樣作，咱們確保消費者是該分區的惟一讀取者，並按順序消費數據，因爲有許多分區，這仍然平衡了許多消費者實例的負載，可是請注意，消費者組中的消費者實例不能超過度區。