kafka筆記9(監控)

Kafka提供的全部度量指標都是經過JMX(Java Management Extensions)接口訪問json

JMX端口查詢:  zookeeper上獲取端口信息  /brokers/ids/<ID>節點包含json格式的broker信息,裏面含有JMX對應的主機名和端口性能

JMX接口提供的是內部度量指標,第三方程序提供的則是外部度量指標fetch

 

應用程序健康檢測:操作系統

  使用外部進程來報告broker的運行狀態(健康檢測)線程

  在broker中止發送度量指標時發出告警(stale度量指標)3d

 

broker度量指標日誌

  非同步分區數量:  做爲首領的broker有多少個分區處於非同步狀態server

  

  該值大於0就要採起措施,首先建議從新選舉首領,看看可否解決問題blog

  問題排查步驟:接口

    

  集羣級別的問題:

    不均衡的負載   資源過分消耗

    問題定位: 用到如下度量指標  

        分區數量   首領分區數量    主題流入字節速率   主題流入消息速率

        在一個均衡集羣裏,度量指標的數值在整個集羣範圍內均等的

        

        如下資源出現過分消耗會致使分區不一樣步

            

 主機級別問題:

    硬件問題

      磁盤問題是常見的故障,致使分區不一樣步,拖慢整個集羣broker請求

  

    進程衝突

    本地配置的不一致     

  活躍控制器數量:

    表示broker是否就是當前的集羣控制器,1表明是,任什麼時候候集羣應該只有一個集羣控制器

         

  請求處理器空閒率

    

      空閒率低於20%說明存在潛在問題,低於10%說明存在性能問題

  主題流入字節

    

  主題流出字節

    

  主題流入消息

    

  分區數量:

    

  首領數量:

    該度量指標表示broker擁有的首領分區數量,與其餘度量同樣,該度量指標也應該在整個集羣的broker上保持均等

    

    一個均衡集羣若是複製係數是N,則該百分比應該爲1/N

  離線分區: 顯示集羣裏沒有首領的分區數量

    分區離線的主要緣由:   包含分區副本的broker都關閉了; 消息不匹配,沒有同步副本能夠拿到首領身份(而且禁用了不徹底的首領選舉)

    

  請求度量指標:

    

      

主題和分區的度量指標:(指定某個主題)

    主題實例的度量指標: 取決於集羣主題數量

        

    分區實例的度量指標

        

        

JAVA虛擬機監控

    垃圾回收:

      

    Java操做系統監控

      

日誌:

  Kafka.controller   記錄集羣控制器的消息

  kafka.server.ClientQuotaManager  記錄與生產和消費配額活動相關的信息    

  啓用kafka.log.LogCleaner  kafka.log.Cleaner   kafka.log.LogCleanerManager這些日誌,並設置爲DEBUG級別,就能夠輸出日誌壓縮線程的運行狀態

客戶端監控

  生產者度量指標

    

 

     record-error-rate 是一個徹底有必要對其設置告警的屬性,通常狀況下是0,大於0,說明生產者正在丟棄沒法發送的消息

    record-retry-rate  重試次數

    request-latency-avg 設置告警,表示發送一個生產者請求到broker所需的平均時間

  3種不一樣視圖:  outgoing-byte-rate 每秒鐘消息的字節數    record-send-rate 每秒消息的數量   request-rate  每秒鐘生產者發送給broker的請求數

  Per-broker和Per-topic 度量指標

  消費者度量指標:

    

     Fetchmanager度量指標

        fetch-latency-avg 表示消費者向Broker發送請求所須要的時間

     

      

      Coordinator度量指標

      

      配額

      

延遲監控

端到端監控

  :

相關文章
相關標籤/搜索