kafka彙總

時間 2019-11-24

標籤 kafka 彙總欄目 Kafka 简体版

原文原文鏈接

Kafka服務器

1. kafka概念

kafka是一個高吞吐亮的、分佈式、基於發佈/訂閱（也就是一對多）的消息系統，最初由Linkedln公司開發的，使用Scala語言編寫的，目前是Apache的開源項目。網絡

消息隊列：

1> 原理app

客戶端消費Queue的數據優良種方式：負載均衡

發佈/訂閱模式：也就是一對多，數據產生後，推給全部的訂閱者。
點點對點模式：也就是一對一，這個是主動模式，第一種模式更像是被動模式，這個就是消費者主動拉取生產後的數據。

2> 消息隊列的優勢：異步

解耦2.冗餘3.擴展性4.靈活性和峯值處理能力5.可恢復性6.順序保證(kafka保證一個partition內的數據是有序的)7.緩衝8.異步通訊

kafka的基本術語

topic：消息類別，kafka按照topic來分類消息。能夠理解成一個隊列，一個topic裏有多個partition。分佈式

broker：kafka服務器，負責消息的存儲與轉發。一臺kafka服務器就是一個broker，一個集羣有多個broker，一個broker能夠有多個topic。性能

partition：topic的一個分區，一個topic能夠包含多個partition，topic消息保存在各個partition上。設計

offset：消息在日誌中的位置，能夠理解是消息在partition上的偏移量，也是表明消息的惟一序號。3d

producer：消息生產者。向kafka broker發消息的客戶端。日誌

consumer：消息消費者。向kafka broker 取消息的客戶端。

Consumer group：消費者分組，每一個consumer必須屬於一個group。Consumer group是kafka用來實現原子廣播和單播的手段。topic的消息會複製（不是真正的複製）到全部的consumer group，可是每一個partition只會把消息發給該consumer group中的一個consumer。

eg：廣播實現的方法是：只要每一個consumer有一個獨立的consumer group就好了。單播的實現方法就是：只要全部的consumer在同一個consumer group中就能夠了。

Zookeeper：保存着集羣broker、topic、partition等meta數據；另外，還負責broker 故障發現，partition leader選舉，負載均衡等功能

kafka數據存儲設計：

1. partition的數據文件（offset、messageSize、data）

partition中的每條Message包含了如下三個屬性：offset，MessageSize、data，其中offset表示Message在這個partition中的偏移量，offset不是該patition數據文件中的實際存儲位置，而是邏輯上的一個值，它惟一肯定了partition中的一條Message，能夠認爲offset是partition中Message的id；MessageSize表示消息內容data的大小；data爲message的及具體內容。

2. 數據文件分段segment（順序讀寫、分段命令、二分查找）

partition物理上由多個segment文件組成，每一個segment大小相等，順序讀寫。每一個segment 數據文件以該段中小的offset命名，文件擴展名爲.log。這樣在查找指定offset的Message的時候，用二分查找就能夠定位到該Message在哪一個segment數據文件中。

3. 數據文件索引（分段索引、稀疏存儲）

Kafka 爲每一個分段後的數據文件創建了索引文件，文件名與數據文件的名字是同樣的，只是文件擴展名爲.index。index 文件中並無爲數據文件中的每條 Message 創建索引，而是採用了稀疏存儲的方式，每隔必定字節的數據創建一條索引。這樣避免了索引文件佔用過多的空間，從而能夠將索引文件保留在內存中