MQ之Kafka

現代的互聯網分佈式系統,只要稍微大一些,就必定逃不開3類中間件:遠程調用(RPC)框架、消息隊列、數據庫訪問中間件。Kafka 是消息隊列中間件的表明產品,用 Scala 語言實現;html

基本概念

首先,Kafka 中有一些基本的概念須要熟悉。數據庫

  • Topic,指消息的類別,每一個消息都必須有;
  • Producer,指消息的產生者,或者,消息的寫端;
  • Consumer,指消息的消費者,或者,消息的讀端;
  • Producer Group,指產生者組,組內的生產者產生同一類消息;
  • Consumer Group,指消費者組,組內的消費者消費同一類消息;
  • Broker,指消息服務器,Producer 產生的消息都是寫到這裏,Consumer 讀消息也是從這裏讀;
  • Zookeeper,是 Kafka 的註冊中心,Broker 和 Consumer 之間的協調器,包含狀態信息、配置信息和一些 Topic 的信息;
  • Partition,指消息的水平分區,一個 Topic 能夠有多個分區;
  • Replica,指消息的副本,爲了提升可用性,將消息副本保存在其餘 Broker 上。

特別說明,Broker 是指單個消息服務進程,通常狀況下,Kafka 是集羣運行的,Broker 只是集羣中的一個服務進程,而非代指整個 Kafka 服務,能夠簡單將 Broker 理解成服務器(Server)。Kafka 引入的術語都比較常見,從字面上理解相對直觀。Kafka 的大體結構圖是這樣:服務器

 (Kafka 是 Pull 模式的消息隊列,即 Consumer 連到消息隊列服務上,主動請求新消息,若是要作到實時性,須要採用長輪詢,Kafka 在0.8的時候已經支持長輪詢模式。上圖中 Consumer 的鏈接箭頭方向可能會讓讀者誤覺得是 Push 模式,特此註明)負載均衡

 

 

關於順序和分區

Kafka 是一個力求保持消息順序性的消息隊列,但不是徹底保證,其保證的是 Partition 級別的順序性,以下圖:框架

此圖是 Topic 的分區 log 的示意圖,可見,每一個分區上的 log 都是一個有序的隊列,因此,Kafka 是分區級別有序的。若是,某個 Topic 只有一個分區,那麼這個 Topic 下的消息就都是有序的。異步

分區是爲了提高消息處理的吞吐率而產生的,將一個 Topic 中的消息分紅幾份,分別給不一樣的 Broker 處理。以下圖:分佈式

此圖中有2個 Broker,Server 1 和 Server 2,每一個 Broker 上有2個分區,總共4個分區,P0 ~ P3;有2個 Consumer Group,Consumer Group A 有2個 Consumer,Consumer Group B 有4個 Consumer。Kafka 的實現是,在穩定的狀況下,維持固定的鏈接,每一個 Consumer 穩定的消費其中某幾個分區的消息,以上圖舉例,Consumer Group A 中的 C1 穩定消費 P0、P3,C2 穩定消費 P一、P2。這樣的鏈接分配可能會致使消息消費的不均勻分佈,但好處是比較容易保證順序性。atom

維持徹底的順序性在分佈式系統看來幾乎是無心義的。由於,若是須要維持順序性,那麼就只能有一條線程阻塞的處理順序消息,即,Producer -> MQ -> Consumer 必須線程上一一對應。這與分佈式系統的初衷是相違背的。可是局部的有序性,是能夠維持的。好比,有30000條消息,每3條之間有關聯,1->2->3,4->5->6,……,可是全局範圍來看,並不須要保證 1->4->7,能夠 7->4->1 的順序來執行,這樣能夠達到最大並行度10000,而這一般是現實中咱們面對的狀況。一般應用中,將有前後關係的消息發送到相同的分區上,便可解決大部分問題。url

關於副本

副本是高可用 Kafka 集羣的實現方式。假設集羣中有3個 Broker,那麼能夠指定3個副本,這3個副本是對等的,對於某個 Topic 的分區來講,其中一個是 Leader,即主節點,另外2個副本是 Follower,即從節點,每一個副本在一個 Broker 上。當 Leader 收到消息的時候,會將消息寫一份到副本中,一般狀況,只有 Leader 處於工做狀態。在 Leader 發生故障宕機的時候,Follwer 會取代 Leader 繼續傳送消息,而不會發生消息丟失。Kafka 的副本是以分區爲單位的,也就是說,即便是同一個 Topic,其不一樣分區的 Leader 節點也不一樣。甚至,Kafka 傾向於用不一樣的 Broker 來作分區的 Leader,由於這樣能作到更好的負載均衡。spa

在副本間的消息同步,其實是複製消息的 log,複製能夠是同步複製,也能夠是異步複製。同步複製是說,當 Leader 收到消息後,將消息寫入從副本,只有在收到從副本寫入成功的確認後才返回成功給 Producer;異步複製是說,Leader 將消息寫入從副本,可是不等待從副本的成功確認,直接返回成功給 Producer。同步複製效率較低,可是消息不會丟;異步複製效率高,可是在 Broker 宕機的時候,可能會出現消息丟失。

關於丟消息和重複收到消息

任何一個 MQ 都須要處理丟消息和重複收到消息的,正常狀況下,Kafka 能夠保證:1. 不丟消息;2. 不重複發消息;3. 消息讀且只讀一次。固然這都是正常狀況,極端狀況,如 Broker 宕機,斷電,這類狀況下,Kafka 只能保證 1 或者 2,沒法保證 3。

在有副本的狀況下,Kafka 是能夠保證消息不丟的,其前提是設置了同步複製,這也是 Kafka 的默認設置,可是可能出現重複發送消息,這個交給上層應用解決;在生產者中使用異步提交,能夠保證不重複發送消息,可是有丟消息的可能,若是應用能夠容忍,也能夠接受。若是須要實現讀且只讀一次,就比較麻煩,須要更底層的 API 4

相關文章
相關標籤/搜索