kafka筆記9（監控）

時間 2019-12-05

標籤 kafka 筆記監控欄目 Kafka 简体版

原文原文鏈接

Kafka提供的全部度量指標都是經過JMX（Java Management Extensions）接口訪問json

JMX端口查詢： zookeeper上獲取端口信息 /brokers/ids/<ID>節點包含json格式的broker信息，裏面含有JMX對應的主機名和端口性能

JMX接口提供的是內部度量指標，第三方程序提供的則是外部度量指標fetch

應用程序健康檢測:操作系統

　　使用外部進程來報告broker的運行狀態(健康檢測)線程

　　在broker中止發送度量指標時發出告警(stale度量指標)3d

broker度量指標日誌

　　非同步分區數量: 做爲首領的broker有多少個分區處於非同步狀態server

　　該值大於0就要採起措施,首先建議從新選舉首領,看看可否解決問題blog

　　問題排查步驟:接口

　　集羣級別的問題:

　　　　不均衡的負載資源過分消耗

　　　　問題定位: 用到如下度量指標

　　　　　　　　分區數量首領分區數量主題流入字節速率主題流入消息速率

　　　　　　　　在一個均衡集羣裏,度量指標的數值在整個集羣範圍內均等的

　　　　　　　　如下資源出現過分消耗會致使分區不一樣步

　主機級別問題:

　　　　硬件問題

　　　　　　磁盤問題是常見的故障,致使分區不一樣步,拖慢整個集羣broker請求

　　　　進程衝突

　　　　本地配置的不一致　　　　　

　　活躍控制器數量:

　　　　表示broker是否就是當前的集羣控制器,1表明是,任什麼時候候集羣應該只有一個集羣控制器

　　請求處理器空閒率

　　　　　　空閒率低於20%說明存在潛在問題,低於10%說明存在性能問題

　　主題流入字節

　　主題流出字節

　　主題流入消息

　　分區數量:

　　首領數量:

　　　　該度量指標表示broker擁有的首領分區數量,與其餘度量同樣,該度量指標也應該在整個集羣的broker上保持均等

　　　　一個均衡集羣若是複製係數是N,則該百分比應該爲1/N

　　離線分區: 顯示集羣裏沒有首領的分區數量

　　　　分區離線的主要緣由: 包含分區副本的broker都關閉了; 消息不匹配,沒有同步副本能夠拿到首領身份(而且禁用了不徹底的首領選舉)

　　請求度量指標:

主題和分區的度量指標:(指定某個主題)

　　　　主題實例的度量指標: 取決於集羣主題數量

　　　　分區實例的度量指標

JAVA虛擬機監控

　　　　垃圾回收:

　　　　Java操做系統監控

日誌:

　　Kafka.controller 記錄集羣控制器的消息

　　kafka.server.ClientQuotaManager 記錄與生產和消費配額活動相關的信息　　　　

　　啓用kafka.log.LogCleaner kafka.log.Cleaner kafka.log.LogCleanerManager這些日誌,並設置爲DEBUG級別,就能夠輸出日誌壓縮線程的運行狀態

客戶端監控

　　生產者度量指標

　　　　record-error-rate 是一個徹底有必要對其設置告警的屬性,通常狀況下是0,大於0,說明生產者正在丟棄沒法發送的消息

　　　　record-retry-rate 重試次數

　　　　request-latency-avg 設置告警,表示發送一個生產者請求到broker所需的平均時間

　　3種不一樣視圖: outgoing-byte-rate 每秒鐘消息的字節數 record-send-rate 每秒消息的數量 request-rate 每秒鐘生產者發送給broker的請求數

　　Per-broker和Per-topic 度量指標

　　消費者度量指標:

　　　　　Fetchmanager度量指標

　　　　　　 fetch-latency-avg 表示消費者向Broker發送請求所須要的時間

　　　　　　Coordinator度量指標

　　　　　　配額

延遲監控

端到端監控

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。