區塊鏈服務程序是一個 7x24 小時的工做軟件,節點分佈在不一樣網絡的主機中。做爲運維人員,須要關注服務是否正常工做,包括服務中的區塊鏈數據是否可以正常同步、軟件進程是否存活、用來存儲數據的空間是否足夠、其餘節點是否正常工做等,所以一個可以實時、直觀瞭解這些指標,而且在運維人員沒有主動關注時,也能及時收到服務異常告警通知的監控系統,是十分重要且必要的。git
所以,爲了給運維人員提供更好的用戶體驗,祕猿科技研發並開源了 CITA-Monitor 監控系統, 用以監控 CITA 區塊鏈服務運行狀態。github
CITA-Monitor 監控的指標包括:區塊鏈數據、服務進程狀態、運行環境的 CPU /存儲器/磁盤使用率等主機信息等。網絡
儀表板截圖
爲了可以讓數據狀況可以一目瞭然,咱們開發了數據可視化面板,節點管理員能夠輕鬆瞭解節點的運行健康狀態。此外,咱們還內置了關鍵的告警規則,例如服務進程狀態告警,如微服務、依賴服務進程存活;區塊鏈數據狀態告警,如出塊高度、出塊間隔時間、交易數據的 TPS;運行環境狀態警告,如磁盤空間不足,通過簡單配置收發郵箱便可第一時間收到相關告警郵件。CITA-Monitor 詳細介紹請移步 GitHub 查閱。架構
CITA 微服務及MQ進程的存活、進程的 CPU、內存使用率、IO運維
節點出塊高度歷史、出塊時間、出塊間隔趨勢、Quota、交易量歷史、TPS、磁盤佔用比例、數據目錄大小增加趨勢微服務
主機運行環境的系統負載、CPU、內存、磁盤空間使用狀況、網絡流量、TCP 鏈接數等工具
支持郵件通知、Slack 通知、短信通知(Pro 版)區塊鏈
監控告警策略3d
鏈接節點數、網絡拓撲、地理位置等orm
鑑別請求來源、工具;限制訪問來源、頻率
統計分析 RPC 方法的請求時間、請求次數
節點列表
各節點最新塊高
各節點 CPU 使用率變化
各節點監控進程存活
Node Info - 選定節點的詳細信息,包括區塊鏈數據、運行環境、運行軟件信息
CITA Meta Data - 鏈的配置信息,如 Chain Name、建立時間等
Chain Info - 鏈的最新塊高、共識節點數、共識節點出塊歷史趨勢
各節點運行主機的信息,包括系統負載、CPU、內存、硬盤使用率、網絡流量
節點中 CITA 微服進程的存活歷史、CPU、內存、IO 變化歷史
RabbitMQ 服務的存活狀態、channels 、consumers、connections、queues 等的變化記錄
更細節可查看:監控指標信息結構