Kafka 會不會丟消息？

時間 2020-11-30

標籤面試緩存網絡 session 架構負載均衡異步 async 分佈式函數欄目 Kafka 简体版

原文原文鏈接

1、認識 Kafka

Kafka 是分佈式發佈-訂閱消息系統。它最初由 LinkedIn 公司開發，以後成爲 Apache 項目的一部分。面試

Kafka 是一個分佈式的，可劃分的，冗餘備份的持久性的日誌服務。它主要用於處理活躍的流式數據。緩存

Kafka 的總體架構很是簡單，是顯式分佈式架構，主要由 producer、broker（kafka）和 consumer 組成。網絡

Producer（生產者）能夠將數據發佈到所選擇的 topic（主題）中。生產者負責將記錄分配到 topic 的哪個 partition（分區）中。可使用循環的方式來簡單地實現負載均衡，也能夠根據某些語義分區函數（如記錄中的key）來完成。session

Consumer（消費者）使用一個consumer group（消費組）名稱來進行標識，發佈到 topic 中的每條記錄被分配給訂閱消費組中的一個消費者實例。消費者實例能夠分佈在多個進程中或者多個機器上。架構

在討論 kafka 是否丟消息前先來了解一下什麼是消息傳遞語義。負載均衡

message delivery semantic 也就是消息傳遞語義，簡單說就是消息傳遞過程當中消息傳遞的保證性。主要分爲三種：異步

理想狀況下確定是但願系統的消息傳遞是嚴格 exactly once，也就是保證不丟失、只會被處理一次，可是很難作到。async

回到主角 Kafka，Kafka 有三次消息傳遞的過程：分佈式

在這三步中每一步都有可能會丟失消息，下面詳細分析爲何會丟消息，如何最大限度避免丟失消息。函數

先介紹一下生產者發送消息的通常流程（部分流程與具體配置項強相關，這裏先忽略）：

生產者採用 push 模式將數據發佈到 broker，每條消息追加到分區中，順序寫入磁盤。消息寫入 Leader 後，Follower 是主動與 Leader 進行同步。

Kafka 消息發送有兩種方式：同步（sync）和異步（async），默認是同步方式，可經過 producer.type 屬性進行配置。

Kafka 經過配置 request.required.acks 屬性來確認 Producer 的消息：

0：表示不進行消息接收是否成功的確認；不能保證消息是否發送成功，生成環境基本不會用。
1：默認值，表示當 Leader 接收成功時確認；只要 Leader 存活就能夠保證不丟失，保證了吞吐量。因此默認的 producer 級別是 at least once。
all：保證 leader 和 follower 不丟，可是若是網絡擁塞，沒有收到 ACK，會有重複發的問題。

若是 acks 配置爲 0，發生網絡抖動消息丟了，生產者不校驗 ACK 天然就不知道丟了。

若是 acks 配置爲 1 保證 leader 不丟，可是若是 leader 掛了，剛好選了一個沒有 ACK 的 follower，那也丟了。

若是 acks 配置爲 all 保證 leader 和 follower 不丟，可是若是網絡擁塞，沒有收到 ACK，會有重複發的問題。