Kafka的基本介紹nginx
Kafka是最初由Linkedin公司開發,是一個分佈式、分區的、多副本的、多訂閱者,基於zookeeper協調的分佈式日誌系統(也能夠當作MQ系統),常見能夠用於web/nginx日誌、訪問日誌,消息服務等等,Linkedin於2010年貢獻給了Apache基金會併成爲頂級開源項目。web
主要應用場景是:日誌收集系統和消息系統。算法
Kafka主要設計目標以下:網絡
以時間複雜度爲O(1)的方式提供消息持久化能力,即便對TB級以上數據也能保證常數時間的訪問性能。session
高吞吐率。即便在很是廉價的商用機器上也能作到單機支持每秒100K條消息的傳輸。app
支持Kafka Server間的消息分區,及分佈式消費,同時保證每一個partition內的消息順序傳輸。負載均衡
同時支持離線數據處理和實時數據處理。socket
Kafka的設計原理分析分佈式
一個典型的kafka集羣中包含若干producer,若干broker,若干consumer,以及一個Zookeeper集羣。Kafka經過Zookeeper管理集羣配置,選舉leader,以及在consumer group發生變化時進行rebalance。producer使用push模式將消息發佈到broker,consumer使用pull模式從broker訂閱並消費消息。 函數
Kafka專用術語:
Broker:消息中間件處理結點,一個Kafka節點就是一個broker,多個broker能夠組成一個Kafka集羣。
Topic:一類消息,Kafka集羣可以同時負責多個topic的分發。
Partition:topic物理上的分組,一個topic能夠分爲多個partition,每一個partition是一個有序的隊列。
Segment:partition物理上由多個segment組成。
offset:每一個partition都由一系列有序的、不可變的消息組成,這些消息被連續的追加到partition中。partition中的每一個消息都有一個連續的序列號叫作offset,用於partition惟一標識一條消息。
Producer:負責發佈消息到Kafka broker。
Consumer:消息消費者,向Kafka broker讀取消息的客戶端。
Consumer Group:每一個Consumer屬於一個特定的Consumer Group。
Kafka數據傳輸的事務特色
at most once:最多一次,這個和JMS中"非持久化"消息相似,發送一次,不管成敗,將不會重發。消費者fetch消息,而後保存offset,而後處理消息;當client保存offset以後,可是在消息處理過程當中出現了異常,致使部分消息未能繼續處理。那麼此後"未處理"的消息將不能被fetch到,這就是"at most once"。
at least once:消息至少發送一次,若是消息未能接受成功,可能會重發,直到接收成功。消費者fetch消息,而後處理消息,而後保存offset。若是消息處理成功以後,可是在保存offset階段zookeeper異常致使保存操做未能執行成功,這就致使接下來再次fetch時可能得到上次已經處理過的消息,這就是"at least once",緣由offset沒有及時的提交給zookeeper,zookeeper恢復正常仍是以前offset狀態。
exactly once:消息只會發送一次。kafka中並無嚴格的去實現(基於2階段提交),咱們認爲這種策略在kafka中是沒有必要的。
一般狀況下"at-least-once"是咱們首選。
Kafka消息存儲格式
Topic & Partition
一個topic能夠認爲一個一類消息,每一個topic將被分紅多個partition,每一個partition在存儲層面是append log文件。
在Kafka文件存儲中,同一個topic下有多個不一樣partition,每一個partition爲一個目錄,partiton命名規則爲topic名稱+有序序號,第一個partiton序號從0開始,序號最大值爲partitions數量減1。
每一個partion(目錄)至關於一個巨型文件被平均分配到多個大小相等segment(段)數據文件中。但每一個段segment file消息數量不必定相等,這種特性方便old segment file快速被刪除。
每一個partiton只須要支持順序讀寫就好了,segment文件生命週期由服務端配置參數決定。
這樣作的好處就是能快速刪除無用文件,有效提升磁盤利用率。
segment file組成:由2大部分組成,分別爲index file和data file,此2個文件一一對應,成對出現,後綴".index"和「.log」分別表示爲segment索引文件、數據文件.
segment文件命名規則:partion全局的第一個segment從0開始,後續每一個segment文件名爲上一個segment文件最後一條消息的offset值。數值最大爲64位long大小,19位數字字符長度,沒有數字用0填充。
segment中index與data file對應關係物理結構以下:
上圖中索引文件存儲大量元數據,數據文件存儲大量消息,索引文件中元數據指向對應數據文件中message的物理偏移地址。
其中以索引文件中元數據3,497爲例,依次在數據文件中表示第3個message(在全局partiton表示第368772個message),以及該消息的物理偏移地址爲497。
瞭解到segment data file由許多message組成,下面詳細說明message物理結構以下:
參數說明:
關鍵字 | 解釋說明 |
---|---|
8 byte offset | 在parition(分區)內的每條消息都有一個有序的id號,這個id號被稱爲偏移(offset),它能夠惟一肯定每條消息在parition(分區)內的位置。即offset表示partiion的第多少message |
4 byte message size | message大小 |
4 byte CRC32 | 用crc32校驗message |
1 byte 「magic" | 表示本次發佈Kafka服務程序協議版本號 |
1 byte 「attributes" | 表示爲獨立版本、或標識壓縮類型、或編碼類型。 |
4 byte key length | 表示key的長度,當key爲-1時,K byte key字段不填 |
K byte key | 可選 |
value bytes payload | 表示實際消息數據。 |
副本(replication)策略
Kafka的高可靠性的保障來源於其健壯的副本(replication)策略。
1) 數據同步
kafka在0.8版本前沒有提供Partition的Replication機制,一旦Broker宕機,其上的全部Partition就都沒法提供服務,而Partition又沒有備份數據,數據的可用性就大大下降了。因此0.8後提供了Replication機制來保證Broker的failover。
引入Replication以後,同一個Partition可能會有多個Replica,而這時須要在這些Replication之間選出一個Leader,Producer和Consumer只與這個Leader交互,其它Replica做爲Follower從Leader中複製數據。
2) 副本放置策略
爲了更好的作負載均衡,Kafka儘可能將全部的Partition均勻分配到整個集羣上。
Kafka分配Replica的算法以下:
將全部存活的N個Brokers和待分配的Partition排序
將第i個Partition分配到第(i mod n)個Broker上,這個Partition的第一個Replica存在於這個分配的Broker上,而且會做爲partition的優先副本
將第i個Partition的第j個Replica分配到第((i + j) mod n)個Broker上
假設集羣一共有4個brokers,一個topic有4個partition,每一個Partition有3個副本。下圖是每一個Broker上的副本分配狀況。
3) 同步策略
Producer在發佈消息到某個Partition時,先經過ZooKeeper找到該Partition的Leader,而後不管該Topic的Replication Factor爲多少,Producer只將該消息發送到該Partition的Leader。Leader會將該消息寫入其本地Log。每一個Follower都從Leader pull數據。這種方式上,Follower存儲的數據順序與Leader保持一致。Follower在收到該消息並寫入其Log後,向Leader發送ACK。一旦Leader收到了ISR中的全部Replica的ACK,該消息就被認爲已經commit了,Leader將增長HW而且向Producer發送ACK。
爲了提升性能,每一個Follower在接收到數據後就立馬向Leader發送ACK,而非等到數據寫入Log中。所以,對於已經commit的消息,Kafka只能保證它被存於多個Replica的內存中,而不能保證它們被持久化到磁盤中,也就不能徹底保證異常發生後該條消息必定能被Consumer消費。
Consumer讀消息也是從Leader讀取,只有被commit過的消息纔會暴露給Consumer。
Kafka Replication的數據流以下圖所示:
對於Kafka而言,定義一個Broker是否「活着」包含兩個條件:
一是它必須維護與ZooKeeper的session(這個經過ZooKeeper的Heartbeat機制來實現)。
二是Follower必須可以及時將Leader的消息複製過來,不能「落後太多」。
Leader會跟蹤與其保持同步的Replica列表,該列表稱爲ISR(即in-sync Replica)。若是一個Follower宕機,或者落後太多,Leader將把它從ISR中移除。這裏所描述的「落後太多」指Follower複製的消息落後於Leader後的條數超過預約值或者Follower超過必定時間未向Leader發送fetch請求。
Kafka只解決fail/recover,一條消息只有被ISR裏的全部Follower都從Leader複製過去纔會被認爲已提交。這樣就避免了部分數據被寫進了Leader,還沒來得及被任何Follower複製就宕機了,而形成數據丟失(Consumer沒法消費這些數據)。而對於Producer而言,它能夠選擇是否等待消息commit。這種機制確保了只要ISR有一個或以上的Follower,一條被commit的消息就不會丟失。
4) leader選舉
Leader選舉本質上是一個分佈式鎖,有兩種方式實現基於ZooKeeper的分佈式鎖:
節點名稱惟一性:多個客戶端建立一個節點,只有成功建立節點的客戶端才能得到鎖
臨時順序節點:全部客戶端在某個目錄下建立本身的臨時順序節點,只有序號最小的纔得到鎖
Majority Vote的選舉策略和ZooKeeper中的Zab選舉是相似的,實際上ZooKeeper內部自己就實現了少數服從多數的選舉策略。kafka中對於Partition的leader副本的選舉採用了第一種方法:爲Partition分配副本,指定一個ZNode臨時節點,第一個成功建立節點的副本就是Leader節點,其餘副本會在這個ZNode節點上註冊Watcher監聽器,一旦Leader宕機,對應的臨時節點就會被自動刪除,這時註冊在該節點上的全部Follower都會收到監聽器事件,它們都會嘗試建立該節點,只有建立成功的那個follower纔會成爲Leader(ZooKeeper保證對於一個節點只有一個客戶端能建立成功),其餘follower繼續從新註冊監聽事件。
Kafka消息分組,消息消費原理
同一Topic的一條消息只能被同一個Consumer Group內的一個Consumer消費,但多個Consumer Group可同時消費這一消息。
這是Kafka用來實現一個Topic消息的廣播(發給全部的Consumer)和單播(發給某一個Consumer)的手段。一個Topic能夠對應多個Consumer Group。若是須要實現廣播,只要每一個Consumer有一個獨立的Group就能夠了。要實現單播只要全部的Consumer在同一個Group裏。用Consumer Group還能夠將Consumer進行自由的分組而不須要屢次發送消息到不一樣的Topic。
Push vs. Pull
做爲一個消息系統,Kafka遵循了傳統的方式,選擇由Producer向broker push消息並由Consumer從broker pull消息。
push模式很難適應消費速率不一樣的消費者,由於消息發送速率是由broker決定的。push模式的目標是儘量以最快速度傳遞消息,可是這樣很容易形成Consumer來不及處理消息,典型的表現就是拒絕服務以及網絡擁塞。而pull模式則能夠根據Consumer的消費能力以適當的速率消費消息。
對於Kafka而言,pull模式更合適。pull模式可簡化broker的設計,Consumer可自主控制消費消息的速率,同時Consumer能夠本身控制消費方式——便可批量消費也可逐條消費,同時還能選擇不一樣的提交方式從而實現不一樣的傳輸語義。
Kafak順序寫入與數據讀取
生產者(producer)是負責向Kafka提交數據的,Kafka會把收到的消息都寫入到硬盤中,它絕對不會丟失數據。爲了優化寫入速度Kafak採用了兩個技術,順序寫入和MMFile。
順序寫入
由於硬盤是機械結構,每次讀寫都會尋址,寫入,其中尋址是一個「機械動做」,它是最耗時的。因此硬盤最「討厭」隨機I/O,最喜歡順序I/O。爲了提升讀寫硬盤的速度,Kafka就是使用順序I/O。
每條消息都被append到該Partition中,屬於順序寫磁盤,所以效率很是高。
對於傳統的message queue而言,通常會刪除已經被消費的消息,而Kafka是不會刪除數據的,它會把全部的數據都保留下來,每一個消費者(Consumer)對每一個Topic都有一個offset用來表示讀取到了第幾條數據。
即使是順序寫入硬盤,硬盤的訪問速度仍是不可能追上內存。因此Kafka的數據並非實時的寫入硬盤,它充分利用了現代操做系統分頁存儲來利用內存提升I/O效率。
在Linux Kernal 2.2以後出現了一種叫作「零拷貝(zero-copy)」系統調用機制,就是跳過「用戶緩衝區」的拷貝,創建一個磁盤空間和內存空間的直接映射,數據再也不復制到「用戶態緩衝區」系統上下文切換減小2次,能夠提高一倍性能。
經過mmap,進程像讀寫硬盤同樣讀寫內存(固然是虛擬機內存)。使用這種方式能夠獲取很大的I/O提高,省去了用戶空間到內核空間複製的開銷(調用文件的read會把數據先放到內核空間的內存中,而後再複製到用戶空間的內存中。)
消費者(讀取數據)
試想一下,一個Web Server傳送一個靜態文件,如何優化?答案是zero copy。傳統模式下咱們從硬盤讀取一個文件是這樣的。
先複製到內核空間(read是系統調用,放到了DMA,因此用內核空間),而後複製到用戶空間(一、2);從用戶空間從新複製到內核空間(你用的socket是系統調用,因此它也有本身的內核空間),最後發送給網卡(三、4)。
Zero Copy中直接從內核空間(DMA的)到內核空間(Socket的),而後發送網卡。這個技術很是廣泛,Nginx也是用的這種技術。
實際上,Kafka把全部的消息都存放在一個一個的文件中,當消費者須要數據的時候Kafka直接把「文件」發送給消費者。當不須要把整個文件發出去的時候,Kafka經過調用Zero Copy的sendfile這個函數,這個函數包括:
out_fd做爲輸出(通常及時socket的句柄)
in_fd做爲輸入文件句柄
off_t表示in_fd的偏移(從哪裏開始讀取)
1.kafka爲何要在topic里加入分區的概念?