很到位！原來這纔是Kafka的「真面目」

時間 2019-11-08

原文原文鏈接

簡介

kafka是一個分佈式消息隊列。具備高性能、持久化、多副本備份、橫向擴展能力。生產者往隊列裏寫消息，消費者從隊列裏取消息進行業務邏輯。通常在架構設計中起到解耦、削峯、異步處理的做用。正則表達式

kafka對外使用topic的概念，生產者往topic裏寫消息，消費者從讀消息。爲了作到水平擴展，一個topic實際是由多個partition組成的，遇到瓶頸時，能夠經過增長partition的數量來進行橫向擴容。單個parition內是保證消息有序。算法

每新寫一條消息，kafka就是在對應的文件append寫，因此性能很是高。apache

kafka的整體數據流是這樣的：api

大概用法就是，Producers往Brokers裏面的指定Topic中寫消息，Consumers從Brokers裏面拉去指定Topic的消息，而後進行業務處理。
圖中有兩個topic，topic 0有兩個partition，topic 1有一個partition，三副本備份。能夠看到consumer gourp 1中的consumer 2沒有分到partition處理，這是有可能出現的，下面會講到。緩存

關於broker、topics、partitions的一些元信息用zk來存，監控和路由啥的也都會用到zk。網絡

生產

基本流程是這樣的：架構

建立一條記錄，記錄中一個要指定對應的topic和value，key和partition可選。先序列化，而後按照topic和partition，放進對應的發送隊列中。kafka produce都是批量請求，會積攢一批，而後一塊兒發送，不是調send()就進行馬上進行網絡發包。
若是partition沒填，那麼狀況會是這樣的：app

key有填
按照key進行哈希，相同key去一個partition。（若是擴展了partition的數量那麼就不能保證了）
key沒填
round-robin來選partition

這些要發往同一個partition的請求按照配置，攢一波，而後由一個單獨的線程一次性發過去。異步

API

有high level api，替咱們把不少事情都幹了，offset，路由啥都替咱們幹了，用以來很簡單。
還有simple api，offset啥的都是要咱們本身記錄。分佈式

partition

當存在多副本的狀況下，會盡可能把多個副本，分配到不一樣的broker上。kafka會爲partition選出一個leader，以後全部該partition的請求，實際操做的都是leader，而後再同步到其餘的follower。當一個broker歇菜後，全部leader在該broker上的partition都會從新選舉，選出一個leader。（這裏不像分佈式文件存儲系統那樣會自動進行復制保持副本數）

而後這裏就涉及兩個細節：怎麼分配partition，怎麼選leader。

關於partition的分配，還有leader的選舉，總得有個執行者。在kafka中，這個執行者就叫controller。kafka使用zk在broker中選出一個controller，用於partition分配和leader選舉。

partition的分配

將全部Broker（假設共n個Broker）和待分配的Partition排序
將第i個Partition分配到第（i mod n）個Broker上（這個就是leader）
將第i個Partition的第j個Replica分配到第（(i + j) mode n）個Broker上

leader容災

controller會在Zookeeper的/brokers/ids節點上註冊Watch，一旦有broker宕機，它就能知道。當broker宕機後，controller就會給受到影響的partition選出新leader。controller從zk的/brokers/topics/[topic]/partitions/[partition]/state中，讀取對應partition的ISR（in-sync replica已同步的副本）列表，選一個出來作leader。
選出leader後，更新zk，而後發送LeaderAndISRRequest給受影響的broker，讓它們改變知道這事。爲何這裏不是使用zk通知，而是直接給broker發送rpc請求，個人理解多是這樣作zk有性能問題吧。

若是ISR列表是空，那麼會根據配置，隨便選一個replica作leader，或者乾脆這個partition就是歇菜。若是ISR列表的有機器，可是也歇菜了，那麼還能夠等ISR的機器活過來。

多副本同步

這裏的策略，服務端這邊的處理是follower從leader批量拉取數據來同步。可是具體的可靠性，是由生產者來決定的。
生產者生產消息的時候，經過request.required.acks參數來設置數據的可靠性。

acks	what happen
0	which means that the producer never waits for an acknowledgement from the broker.發過去就完事了，不關心broker是否處理成功，可能丟數據。
1	which means that the producer gets an acknowledgement after the leader replica has received the data. 當寫Leader成功後就返回,其餘的replica都是經過fetcher去同步的,因此kafka是異步寫，主備切換可能丟數據。
-1	which means that the producer gets an acknowledgement after all in-sync replicas have received the data. 要等到isr裏全部機器同步成功，才能返回成功，延時取決於最慢的機器。強一致，不會丟數據。

在acks=-1的時候，若是ISR少於min.insync.replicas指定的數目，那麼就會返回不可用。

這裏ISR列表中的機器是會變化的，根據配置replica.lag.time.max.ms，多久沒同步，就會從ISR列表中剔除。之前還有根據落後多少條消息就踢出ISR，在1.0版本後就去掉了，由於這個值很難取，在高峯的時候很容易出現節點不斷的進出ISR列表。

從ISA中選出leader後，follower會從把本身日誌中上一個高水位後面的記錄去掉，而後去和leader拿新的數據。由於新的leader選出來後，follower上面的數據，可能比新leader多，因此要截取。這裏高水位的意思，對於partition和leader，就是全部ISR中都有的最新一條記錄。消費者最多隻能讀到高水位；

從leader的角度來講高水位的更新會延遲一輪，例如寫入了一條新消息，ISR中的broker都fetch到了，可是ISR中的broker只有在下一輪的fetch中才能告訴leader。

也正是因爲這個高水位延遲一輪，在一些狀況下，kafka會出現丟數據和主備數據不一致的狀況，0.11開始，使用leader epoch來代替高水位。（https://cwiki.apache.org/confluence/display/KAFKA/KIP-101+-+Alter+Replication+Protocol+to+use+Leader+Epoch+rather+than+High+Watermark+for+Truncation#KIP-101-AlterReplicationProtocoltouseLeaderEpochratherthanHighWatermarkforTruncation-Scenario1:HighWatermarkTruncationfollowedbyImmediateLeaderElection）

思考：
當acks=-1時

是follwers都來fetch就返回成功，仍是等follwers第二輪fetch？
leader已經寫入本地，可是ISR中有些機器失敗，那麼怎麼處理呢？

消費

訂閱topic是以一個消費組來訂閱的，一個消費組裏面能夠有多個消費者。同一個消費組中的兩個消費者，不會同時消費一個partition。換句話來講，就是一個partition，只能被消費組裏的一個消費者消費，可是能夠同時被多個消費組消費。所以，若是消費組內的消費者若是比partition多的話，那麼就會有個別消費者一直空閒。

API

訂閱topic時，能夠用正則表達式，若是有新topic匹配上，那能自動訂閱上。

offset的保存

一個消費組消費partition，須要保存offset記錄消費到哪，之前保存在zk中，因爲zk的寫性能很差，之前的解決方法都是consumer每隔一分鐘上報一次。這裏zk的性能嚴重影響了消費的速度，並且很容易出現重複消費。
在0.10版本後，kafka把這個offset的保存，從zk總剝離，保存在一個名叫__consumeroffsets topic的topic中。寫進消息的key由groupid、topic、partition組成，value是偏移量offset。topic配置的清理策略是compact。老是保留最新的key，其他刪掉。通常狀況下，每一個key的offset都是緩存在內存中，查詢的時候不用遍歷partition，若是沒有緩存，第一次就會遍歷partition創建緩存，而後查詢返回。

肯定consumer group位移信息寫入__consumers_offsets的哪一個partition，具體計算公式：

__consumers_offsets partition =
           Math.abs(groupId.hashCode() % groupMetadataTopicPartitionCount)   
//groupMetadataTopicPartitionCount由offsets.topic.num.partitions指定，默認是50個分區。

思考：
若是正在跑的服務，修改了offsets.topic.num.partitions，那麼offset的保存是否是就亂套了？

分配partition--reblance

生產過程當中broker要分配partition，消費過程這裏，也要分配partition給消費者。相似broker中選了一個controller出來，消費也要從broker中選一個coordinator，用於分配partition。
下面從頂向下，分別闡述一下

怎麼選coordinator。
交互流程。
reblance的流程。

選coordinator

看offset保存在那個partition
該partition leader所在的broker就是被選定的coordinator

這裏咱們能夠看到，consumer group的coordinator，和保存consumer group offset的partition leader是同一臺機器。

交互流程

把coordinator選出來以後，就是要分配了
整個流程是這樣的：

consumer啓動、或者coordinator宕機了，consumer會任意請求一個broker，發送ConsumerMetadataRequest請求，broker會按照上面說的方法，選出這個consumer對應coordinator的地址。
consumer 發送heartbeat請求給coordinator，返回IllegalGeneration的話，就說明consumer的信息是舊的了，須要從新加入進來，進行reblance。返回成功，那麼consumer就從上次分配的partition中繼續執行。

reblance流程

consumer給coordinator發送JoinGroupRequest請求。
這時其餘consumer發heartbeat請求過來時，coordinator會告訴他們，要reblance了。
其餘consumer發送JoinGroupRequest請求。
全部記錄在冊的consumer都發了JoinGroupRequest請求以後，coordinator就會在這裏consumer中隨便選一個leader。而後回JoinGroupRespone，這會告訴consumer你是follower仍是leader，對於leader，還會把follower的信息帶給它，讓它根據這些信息去分配partition

五、consumer向coordinator發送SyncGroupRequest，其中leader的SyncGroupRequest會包含分配的狀況。
六、coordinator回包，把分配的狀況告訴consumer，包括leader。

當partition或者消費者的數量發生變化時，都得進行reblance。
列舉一下會reblance的狀況：

增長partition
增長消費者
消費者主動關閉
消費者宕機了
coordinator本身也宕機了

消息投遞語義

kafka支持3種消息投遞語義
At most once：最多一次，消息可能會丟失，但不會重複
At least once：最少一次，消息不會丟失，可能會重複
Exactly once：只且一次，消息不丟失不重複，只且消費一次（0.11中實現，僅限於下游也是kafka）

在業務中，經常都是使用At least once的模型，若是須要可重入的話，每每是業務本身實現。

At least once

先獲取數據，再進行業務處理，業務處理成功後commit offset。
一、生產者生產消息異常，消息是否成功寫入不肯定，重作，可能寫入重複的消息
二、消費者處理消息，業務處理成功後，更新offset失敗，消費者重啓的話，會重複消費

At most once

先獲取數據，再commit offset，最後進行業務處理。
一、生產者生產消息異常，無論，生產下一個消息，消息就丟了
二、消費者處理消息，先更新offset，再作業務處理，作業務處理失敗，消費者重啓，消息就丟了

Exactly once

思路是這樣的，首先要保證消息不丟，再去保證不重複。因此盯着At least once的緣由來搞。首先想出來的：

生產者重作致使重複寫入消息----生產保證冪等性
消費者重複消費---消滅重複消費，或者業務接口保證冪等性重複消費也沒問題

因爲業務接口是否冪等，不是kafka能保證的，因此kafka這裏提供的exactly once是有限制的，消費者的下游也必須是kafka。因此一下討論的，沒特殊說明，消費者的下游系統都是kafka（注:使用kafka conector，它對部分系統作了適配，實現了exactly once）。

生產者冪等性好作，沒啥問題。

解決重複消費有兩個方法：

下游系統保證冪等性，重複消費也不會致使多條記錄。
把commit offset和業務處理綁定成一個事務。

原本exactly once實現第1點就ok了。

可是在一些使用場景下，咱們的數據源多是多個topic，處理後輸出到多個topic，這時咱們會但願輸出時要麼所有成功，要麼所有失敗。這就須要實現事務性。既然要作事務，那麼幹脆把重複消費的問題從根源上解決，把commit offset和輸出到其餘topic綁定成一個事務。

生產冪等性

思路是這樣的，爲每一個producer分配一個pid，做爲該producer的惟一標識。producer會爲每個<topic,partition>維護一個單調遞增的seq。相似的，broker也會爲每一個<pid,topic,partition>記錄下最新的seq。當req_seq == broker_seq+1時，broker纔會接受該消息。由於：

消息的seq比broker的seq大超過期，說明中間有數據還沒寫入，即亂序了。
消息的seq不比broker的seq小，那麼說明該消息已被保存。

事務性/原子性廣播

場景是這樣的：

先從多個源topic中獲取數據。
作業務處理，寫到下游的多個目的topic。
更新多個源topic的offset。

其中第二、3點做爲一個事務，要麼全成功，要麼全失敗。這裏得益與offset其實是用特殊的topic去保存，這兩點都歸一爲寫多個topic的事務性處理。

基本思路是這樣的：
引入tid（transaction id），和pid不一樣，這個id是應用程序提供的，用於標識事務，和producer是誰並不要緊。就是任何producer均可以使用這個tid去作事務，這樣進行到一半就死掉的事務，能夠由另外一個producer去恢復。
同時爲了記錄事務的狀態，相似對offset的處理，引入transaction coordinator用於記錄transaction log。在集羣中會有多個transaction coordinator，每一個tid對應惟一一個transaction coordinator。
注：transaction log刪除策略是compact，已完成的事務會標記成null，compact後不保留。

作事務時，先標記開啓事務，寫入數據，所有成功就在transaction log中記錄爲prepare commit狀態，不然寫入prepare abort的狀態。以後再去給每一個相關的partition寫入一條marker（commit或者abort）消息，標記這個事務的message能夠被讀取或已經廢棄。成功後在transaction log記錄下commit/abort狀態，至此事務結束。

數據流：

首先使用tid請求任意一個broker（代碼中寫的是負載最小的broker），找到對應的transaction coordinator。
請求transaction coordinator獲取到對應的pid，和pid對應的epoch，這個epoch用於防止僵死進程復活致使消息錯亂，當消息的epoch比當前維護的epoch小時，拒絕掉。tid和pid有一一對應的關係，這樣對於同一個tid會返回相同的pid。

client先請求transaction coordinator記錄<topic,partition>的事務狀態，初始狀態是BEGIN，若是是該事務中第一個到達的<topic,partition>，同時會對事務進行計時；client輸出數據到相關的partition中；client再請求transaction coordinator記錄offset的<topic,partition>事務狀態；client發送offset commit到對應offset partition。
client發送commit請求，transaction coordinator記錄prepare commit/abort，而後發送marker給相關的partition。所有成功後，記錄commit/abort的狀態，最後這個記錄不須要等待其餘replica的ack，由於prepare不丟就能保證最終的正確性了。

這裏prepare的狀態主要是用於事務恢復，例如給相關的partition發送控制消息，沒發完就宕機了，備機起來後，producer發送請求獲取pid時，會把未完成的事務接着完成。

當partition中寫入commit的marker後，相關的消息就可被讀取。因此kafka事務在prepare commit到commit這個時間段內，消息是逐漸可見的，而不是同一時刻可見。

詳細細節可看：https://cwiki.apache.org/confluence/display/KAFKA/KIP-98+-+Exactly+Once+Delivery+and+Transactional+Messaging#KIP-98-ExactlyOnceDeliveryandTransactionalMessaging-TransactionalGuarantees

消費事務

前面都是從生產的角度看待事務。還須要從消費的角度去考慮一些問題。
消費時，partition中會存在一些消息處於未commit狀態，即業務方應該看不到的消息，須要過濾這些消息不讓業務看到，kafka選擇在消費者進程中進行過來，而不是在broker中過濾，主要考慮的仍是性能。kafka高性能的一個關鍵點是zero copy，若是須要在broker中過濾，那麼勢必須要讀取消息內容到內存，就會失去zero copy的特性。

文件組織

kafka的數據，其實是以文件的形式存儲在文件系統的。topic下有partition，partition下有segment，segment是實際的一個個文件，topic和partition都是抽象概念。

在目錄/${topicName}-{$partitionid}/下，存儲着實際的log文件（即segment），還有對應的索引文件。

每一個segment文件大小相等，文件名以這個segment中最小的offset命名，文件擴展名是.log；segment對應的索引的文件名字同樣，擴展名是.index。有兩個index文件，一個是offset index用於按offset去查message，一個是time index用於按照時間去查，其實這裏能夠優化合到一塊兒，下面只說offset index。整體的組織是這樣的：

爲了減小索引文件的大小，下降空間使用，方便直接加載進內存中，這裏的索引使用稀疏矩陣，不會每個message都記錄下具體位置，而是每隔必定的字節數，再創建一條索引。索引包含兩部分，分別是baseOffset，還有position。

baseOffset：意思是這條索引對應segment文件中的第幾條message。這樣作方便使用數值壓縮算法來節省空間。例如kafka使用的是varint。

position：在segment中的絕對位置。

查找offset對應的記錄時，會先用二分法，找出對應的offset在哪一個segment中，而後使用索引，在定位出offset在segment中的大概位置，再遍歷查找message。

經常使用配置項

broker配置

配置項	做用
broker.id	broker的惟一標識
auto.create.topics.auto	設置成true，就是遇到沒有的topic自動建立topic。
log.dirs	log的目錄數，目錄裏面放partition，當生成新的partition時，會挑目錄裏partition數最少的目錄放。

topic配置

配置項	做用
num.partitions	新建一個topic，會有幾個partition。
log.retention.ms	對應的還有minutes，hours的單位。日誌保留時間，由於刪除是文件維度而不是消息維度，看的是日誌文件的mtime。
log.retention.bytes	partion最大的容量，超過就清理老的。注意這個是partion維度，就是說若是你的topic有8個partition，配置1G，那麼平均分配下，topic理論最大值8G。
log.segment.bytes	一個segment的大小。超過了就滾動。
log.segment.ms	一個segment的打開時間，超過了就滾動。
message.max.bytes	message最大多大

關於日誌清理，默認當前正在寫的日誌，是怎麼也不會清理掉的。還有0.10以前的版本，時間看的是日誌文件的mtime，但這個指是不許確的，有可能文件被touch一下，mtime就變了。所以在0.10版本開始，改成使用該文件最新一條消息的時間來判斷。按大小清理這裏也要注意，Kafka在定時任務中嘗試比較當前日誌量總大小是否超過閾值至少一個日誌段的大小。若是超過可是沒超過一個日誌段，那麼就不會刪除。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。