互聯網企業級監控系統 OpenFalcon

Open-Falcon 人性化的互聯網企業級監控系統,Open-Falcon 總體能夠分爲兩部分,即繪圖組件、告警組件。其中:網絡

  • 安裝繪圖組件 負責數據的採集、收集、存儲、歸檔、採樣、查詢、展現(Dashboard/Screen)等功能,能夠單獨工做,做爲time-series data的一種存儲展現方案。
  • 安裝告警組件 負責告警策略配置(portal)、告警斷定(judge)、告警處理(alarm/sender)、用戶組管理(uic)等,能夠單獨工做。

介紹運維

監控系統是整個運維環節,乃至整個產品生命週期中最重要的一環,事前及時預警發現故障,過後提供翔實的數據用於追查定位問題。監控系統做爲一個成熟 的運維產品,業界有不少開源的實現可供選擇。當公司剛剛起步,業務規模較小,運維團隊也剛剛創建的初期,選擇一款開源的監控系統,是一個省時省力,效率最 高的方案。以後,隨着業務規模的持續快速增加,監控的對象也愈來愈多,愈來愈複雜,監控系統的使用對象也從最初少數的幾個SRE,擴大爲更多的 DEVS,SRE。這時候,監控系統的容量和用戶的「使用效率」成了最爲突出的問題。性能

監控系統業界有不少傑出的開源監控系統。咱們在早期,一直在用zabbix,不過隨着業務的快速發展,以及互聯網公司特有的一些需求,現有的開源的監控系統在性能、擴展性、和用戶的使用效率方面,已經沒法支撐了。ui

所以,咱們在過去的一年裏,從互聯網公司的一些需求出發,從各位SRE、SA、DEVS的使用經驗和反饋出發,結合業界的一些大的互聯網公司作監控,用監控的一些思考出發,設計開發了小米的監控系統:Open-Falcon。插件

值得關注的特性設計

  • 強大靈活的數據採集:經過配套的Falcon-agent,能夠自動採集400多項單機指標,也能夠經過用戶自定義的插件來擴大采集項的範圍。用戶也能夠經過其餘方式獲取到相關的指標,好比經過SNMP方式獲取網絡設備的相關運行指標,而後主動推送給監控系統。
  • 良好的水平擴展能力:監控系統要能經過水平擴展來支撐業務的快速發展。
  • 高效率的告警策略管理:高效的用戶配置界面、支持策略模板、模板繼承和覆蓋、多種告警方式、支持回調動做。
  • 人性化的告警設置:支持最大告警次數、告警級別設置、告警恢復通知、告警暫停、不一樣時段不一樣閾值、支持維護週期,支持告警合併。
  • 高效的歷史數據查詢:採用RRDtool的數據歸檔策略,秒級返回上百個指標一年的歷史數據。
  • 人性化的Dashboard:多維度的數據展現,用戶自定義Dashboard等功能。
  • 高可用:整個系統無核心單點,易運維,易部署。

屏幕截圖:3d

Dashboard Homepage對象

互聯網企業級監控系統 OpenFalcon

 

Dashboard Screenblog

互聯網企業級監控系統 OpenFalcon

 

Dashboard 大圖繼承

互聯網企業級監控系統 OpenFalcon

 

Portal host group

互聯網企業級監控系統 OpenFalcon

 

Portal template

互聯網企業級監控系統 OpenFalcon
相關文章
相關標籤/搜索