linux 圖解經常使用的雲運維監控工具

原文地址:https://jingyan.baidu.com/article/3a2f7c2e3b7d3726aed61157.htmlhtml

圖解經常使用的雲運維監控工具

隨着雲計算和互聯網的高速發展,大量應用須要橫跨不一樣網絡終端,並普遍接入第三方服務(如支付、登陸、導航等),IT系統架構愈來愈複雜。快速迭代的產品需求和良好的用戶體驗,須要IT運維管理者時刻保障核心業務穩定可用,而企業運維中的痛點和難點也急需解決。ios

1、面向業務的運維,不但關心單點IT資源的運行狀態,更關心整個業務系統的健康狀態算法

2、若是企業使用了大量的API和模塊化應用,那麼關注每一個接口的性能變化狀況和指標sql

3、對於運維主管及企業管理層來講,特別須要上牆的監控大屏docker

4、運維須要每週、每個月查看報告趨勢分析,但傳統運維工具數據導出困難shell

5、須要第一時間轉雀和快速發現故障節點,減小業務中斷帶來的損失數據庫

目前流行的開源運維工具如Zabbix、Nagios等大部分來自國外,雖然這些開源產品功能很是強大,但對技術要求很高,並且缺乏足夠的中文文檔和本土服務支持,通常運維人員要想用好難度很大。apache

  因而就有國內IT廠商小米、TalkingData對其自主開發的運維繫統進行了開源,同時做爲商用監控服務商表明的雲智慧,也對其監控寶產品進行逐步開源,讓運維、開發人員在得到便捷部署和易用性的同時,可根據本身的業務需求進行靈活的二次開發。windows

雲智慧對業內主流的開源運維監控系統和商業運維監控系統進行對比,分析各類產品的定位、目標用戶和功能特色,但願幫助廣大運維、開發和創業者找到最適合本身的運維工具。瀏覽器

方法/步驟

1.    1

Zabbix

Zabbix是一個基於WEB界面的提供分佈式系統監控以及網絡監控功能的企業級開源運維平臺,也是目前國內互聯網用戶中使用最廣的監控軟件,雲智慧遇到的85%以上用戶在使用Zabbix作監控解決方案。

入門容易、上手簡單、功能強大而且開源免費是雲智慧對Zabbix的最直觀評價。Zabbix易於管理和配置,能生成比較漂亮的數據圖,其自動發現功能大大減輕平常管理的工做量,豐富的數據採集方式和API接口可讓用戶靈活進行數據採集,而分佈式系統架構能夠支持監控更多的設備。理論上,經過Zabbix提供的插件式架構,能夠知足企業的任何需求。

  用戶羣:85%以上的泛互聯網企業。

  優勢:

  1. 支持多平臺的企業級分佈式開源監控軟件;

  2. 安裝部署簡單、管理方便;

  3. 功能強大,監控靈活,可實現複雜多條件告警;

  4. 多種數據採集插件,靈活集成;

  5. 自帶畫圖功能,獲得的數據能夠繪成圖形;

  6. 同時支持調用腳本,很方便;

  7. 提供多種API接口,定製化最高的監控軟件;

  8. 出現問題時可自動遠程執行命令(需對agent設置執行權限);

  缺點:

  1. 項目批量修改不方便;

  2. 社區雖然成熟,可是中文資料相對較少,服務支持有限;

  3. 入門容易,能實現基礎的監控,可是深層次需求須要很是熟悉Zabbix並進行大量的二次定製開發,難度較大;

  4. 系統級別報警設置相對比較多,若是不篩選的話報警郵件會不少;而且自定義的項目報警須要本身設置,過程比較繁瑣;

  5. 缺乏數據彙總功能,如沒法查看一組服務器平均值,需進行二次開發;

  6. 數據報表須要特殊二次開發定義;

 

2.    2

Nagios

Nagios原名NetSaint,是一款開源的企業級監控系統,於1999年推出,由Ethan Galstad開發並維護至今。Nagios可以實現對系統CPU、磁盤、網絡等方面參數的基本系統監控,並且還能監控包括SMTP,POP3,HTTP,NNTP等各類基本的服務類型。另外經過安裝插件和編寫監控腳本,用戶能夠實現應用監控,並針對大量的監控主機和多個對象部署層次化監控架構。

 Nagios最大的特色是其開發者將Nagios設計成監控的管理中心,儘管其功能是監控服務和主機的,可是他自身並不包括這部分功能代碼,全部的監控、告警功能都是由相關插件完成的。

  用戶羣:全球超過100萬用戶。許多跨國企業和組織都在使用(西門子、飛利浦、雅虎、索尼、AOL等),尤其適合複雜IT環境的企業。

  優勢:

  1. 自動化運維,出錯的服務器、應用和設備會自動重啓;

  2. 配置靈活,監控項目不少,能夠自定義shell腳本,經過分佈式監控模式,很是適合大型網絡;

  3. 自動日誌滾動;

  4. 支持以冗餘方式進行主機監控;

  5. 在服務事件和主機事件之間良好的相關性;

  6. 命令從新加載配置文件無需打擾Nagios的運行;

  7. 報警設置多樣性;

  缺點:

  1. 很弱的事件控制檯;

  2. 對性能、流量等指標的處理不給力;

  3. 看不到歷史數據,只能看到報警事件,很難追查故障緣由;

  4. 配置複雜,初學者投入的時間、精力比較大;

  5. 插件的易用性很差;

 

3.    3

Ganglia

Ganglia是加州大學伯克利分校發起的一個開源集羣監控項目,設計之初是用於監控數以千計的網絡節點。Ganglia是一個跨平臺可擴展的,高性能計算系統下的分佈式監控系統。它已被普遍移植到各類操做系統和處理器架構上,目前世界各地成千上萬的集羣中應用。

用戶羣:適用於服務器集羣用戶。

  優勢:

  1. 適合監控系統性能,經過曲線很容易見到每一個節點的工做狀態,對合理調整、分配系統資源,提升系統總體性能起到重要做用;

  2. 支持瀏覽器方式訪問,但不能監控節點硬件技術指標;

  3. 適合大型集羣環境;

  4. 部署方便,不用逐臺機器添加配置;

  5. 一臺服務器可以經過不一樣的分層管理上萬臺機器;

  6. 能夠自定義監控項,監控展現有表格和圖像兩種,支持手機版。

  缺點:

  1. 沒有內置的消息通知系統;

  2. 沒有報警機制,出現問題不可以及時報警;

 

4.    4

Zenoss

Zenoss Core是Zenoss的開源版本,其商用版本爲Zenoss Enterprise。做爲企業級智能監控軟件,Zenoss Core容許IT管理員依靠單一的WEB控制檯來監控網絡架構的狀態和健康度。Zenoss Core的強大能力來自於深刻的列表與配置管理數據庫,以發現和管理公司IT環境的各種資產(包括服務器、網絡、和其餘結構設備)。Zenoss同時提供與CMDB關聯的事件和錯誤管理系統,以協助提升各種事件和提醒的管理效率。

Zenoss作到了開源和商業化的較好結合,既吸取開源軟件的優勢,同時又經過商業化運做來保證提供可靠的後續軟件服務。

  優勢:

  1. Zenoss比較出色的地方在於它的Dashboard,能夠配置不少portlet(即widget)。

  2. 每一個用戶的界面都是分開管理的,自定義dashboard不會影響其餘用戶。

  3. 強大監控功能(服務器、路由交換、防火牆、存儲、數據庫、中間件)

  4. 在servicepool裏,用到最新的docker技術,便於用戶對控制檯進行更新與管理。

  5. 數據存儲的架構:採用基於HBASE的opentsdb存儲任意時間段的數據

  6. 較好的將狀態監控,性能監控,資源管理,更好的報告機制進行有機的整合

  7. 直觀且專業的管理界面對於用戶極具吸引力。

  缺點:

  1. 對資源要求較高,即便只管理少數幾臺設備、它也須要消耗大量硬件及內存等附加資源。

  2. 針對windows系統,開源版只提供SNMP,經過WMI檢測CPU,Disk,軟硬件和性能只在收費版提供。

 

5.    5

Hyperic HQ

Hyperic HQ是一個基於Java的Web基礎設施監控和管理平臺,提供監測生產環境中各技術棧的可視性。體系結構的關鍵要素是HQ Server,可用於集中管理和持久性存儲,以及HQ Agent提供了對每一個監測平臺基礎地監測和控制。

用戶羣:一般用於大型計算環境,其核心價值是可以自動而且輕鬆管理和控制數百臺機器的上千軟件資源。資源庫包括:操做系統、應用服務器、應用組件及其餘軟件組件。

  優勢:

  1. 自動發現功能出色。經過點擊就能發現資產列表。

  2. 監測9+系統,自帶75+個資源插件。

  3. 最大化可用性:在問題發生以前,警報、控制去糾正問題。

  4. 能夠追蹤性能、配置、安全的變化。

  缺點:

  1. 指標都是默認提供的,沒法自定義指標(在不開發的基礎上)。

  2. 基礎功能比較缺少,須要強大的二次開發能力。

 

6.    6

OpenNMS

OpenNMS是一個企業級基於Java/XML的分佈式網絡和系統監控管理平臺。OpenNMS是你管理網絡的絕好工具,它可以顯示你網絡中各中終端和服務器的狀態和配置,爲你方便地管理網絡提供有效信息。

OpenNMS專一於三個方面:服務輪詢、數據收集、事件和提示管理。

  優勢:

  1. 定製儀表板功能使人讚歎

  2. 已經獲得普遍普及,目前已經有超過15,000+款插件可供用戶選擇。

  3. 搜索功能實用。如以節點爲單位搜索DNS或者POP3等特定服務;對與資產(包括位置、操做系統及運行狀態)相關的數據字段進行搜索。

  4. 報表功能很是全面,其中包含大量預建立模板並可以運行臨時報告。

  缺點:

  1. 界面對使用者不太直觀

7.    7

Cacti

Cacti是一套完整的網絡流量監測圖形分析解決方案,基於RRDTool的數據存儲和圖形功能實現網絡監控。Cacti提供快速的數據查詢,先進的圖形模板,多種化數據採集方法和用戶管理功能。經過一個直觀、易於使用的界面,實現從局域網規模到數百臺設備的複雜網絡監控,能夠指定每個用戶能查看樹狀結構、Host以及任何一張圖,還能夠與LDAP結合進行用戶驗證,同時也能本身增長模板,功能很是強大。

優勢:

  1. 界面比較好看,主要用途仍是用來收集歷史數據和畫圖;

  2. 樹圖設置自由度高,能夠調節常常看的圖放在前面;

  3. 用戶權限設置細;

  缺點:

  1. 檢驗的頻率是默認5分鐘,增長頻率會有一些Bug;

  2. Web界面設置比較難找;

  3. 添加自定義圖表比較麻煩;

 

8.    8

監控寶

監控寶是雲智慧爲用戶提供IT性能監控(IT Performance Monitoring)的SaaS產品,包含網站監控、服務器監控、中間件監控、數據庫監控、應用監控、API監控和頁面性能監控等功能。包含免費版、暢享版和企業版,目前用戶約40萬,監控寶app也是國內惟一提供移動監控服務的產品。

  用戶羣:覆蓋電子商務、移動互聯網、廣告傳媒、在線遊戲、教育醫療等行業的幾十萬用戶,小米、陌陌、高德、用友、金山、途牛、聚美優品、陸金所、中國平安、建行信用卡中心、春雨醫生、暢遊、國家電網、中國電信、滴滴打車、春秋航空、鳳凰網等各行業領先企業和中國互聯網百強企業超過30%在使用監控寶。

優勢:

  1、 做爲國內最先提供基於SaaS服務的網絡監控平臺,監控寶不但爲初級用戶提供免費的標準服務,企業用戶還能夠按需購買所需的監控、告警資源,最大限度的節省企業運維成本;

  2、 監控寶經過遍及全球的300多個分佈式監測節點,對網絡進行穩定性和可用性的主動監控和實時分析,支持http(https)、ftp、ping、udp、tcp、smtp、traceroute等多種協議,測量CDN效果及DNS狀態,全網全地域性能趨勢分析。

  3、 實時捕捉服務器深層性能指標,支持Linux/Unix/Windows系統及雲平臺,支持CPU使用率、CPU平均負載、內存使用比例、磁盤IO、磁盤空間使用率、網絡流量和系統進程數統計等物理指標及30多種應用服務,雲主機監控端一鍵開啓,無需複雜配置。對於應用服務的監控,監控寶已經支持常見的應用類型包括:Apache、Lighttpd、Nginx、Tomcat、IIS、Memcache和Redis,存儲層監控支持Hadoop、MySQL、MongoDB、SQLServer、Oracle的健康狀態及性能監控。

  4、 監控寶是國內目前惟一支持API監控的網絡監控產品,經過API接口調用模擬用戶使用過程,支持對get、post、put、delete、head、options六種請求方式進行實時監控;支持JSON、XML、Text、Response Status驗證及Postman腳本導入。

  5、 Docker監控也是監控寶的獨家功能,可以實時監控Docker容器的CPU、內存、網絡流量及Swap狀態,讓開發者和運維人員在使用Docker時清晰掌握其資源消耗情況。

  6、 監控寶提供頁面性能管理,基於國際標準制定頁面性能指數,識別加載元素的狀態及正確性,對全網全用戶加載響應時間分析,同時準肯定位問題元素及優化建議。

  7、 及時有效的告警通知對運維來講相當重要,監控寶能夠根據SLA設置告警閾值,第一時間發送告警通知。監控寶覆蓋最全面的告警通知方式:電子郵件、短信、電話語音、URL回調通知、App Push等。另外監控寶提供分級告警通知,可以根據告警事件的不一樣等級將不一樣的告警推送給不一樣的人員,支持企業分層管理!

  8、 監控寶目前對其SmartAgent進行了開源,用戶能夠根據業務需求定製化開發Agent,同時用戶的數據安全獲得保障。

  9、 監控寶提供私有化部署解決方案,知足政企、金融行業專有網絡監控的需求。

  10、 來自Compuware、CA、IBM等企業IT服務資深專家,超過5年的本土化企業級SaaS服務經驗,以及超過百人的技術服務團隊,爲用戶提供最佳的服務保障。

  缺點:免費版只支持6個監控點,每個月免費短信100條,監控頻率爲30分鐘。

 

9.    9

Open-falcon

Open-falcon是小米運維團隊從互聯網公司的需求出發,根據多年的運維經驗,結合SRE、SA、DEVS的使用經驗和反饋,開發的一套面向互聯網的企業級開源監控產品。

 Open-falcon架構

  用戶羣:在2015年5月份發佈而且造成了一個數百人的交流羣,目前有幾十家企業用戶不一樣程度使用。

  優勢:

  1. 強大靈活的數據採集:自動發現,支持falcon-agent、snmp、支持用戶主動push、用戶自定義插件支持、opentsdb data modellike(timestamp、endpoint、metric、key-value tags)

  2. 水平擴展能力:支持每一個週期上億次的數據採集、告警斷定、歷史數據存儲和查詢

  3. 高效率的告警策略管理:高效的portal、支持策略模板、模板繼承和覆蓋、多種告警方式、支持callback調用

  4. 人性化的告警設置:最大告警次數、告警級別、告警恢復通知、告警暫停、不一樣時段不一樣閾值、支持維護週期

  5. 高效率的graph組件:單機支撐200萬metric的上報、歸檔、存儲(週期爲1分鐘)

  6. 高效的歷史數據query組件:採用rrdtool的數據歸檔策略,秒級返回上百個metric一年的歷史數據

  7. dashboard:多維度的數據展現,用戶自定義Screen

  8. 高可用:系統無核心單點,易運維,易部署,可水平擴展;

  9. 插件式監控框架,經過各類插件目前支持Linux主機監控(指標更多)、Windows主機監控、Mysql監控、Redis監控、Memache監控、RabbitMQ監控和交換機監控。

  缺點:因爲小米公司的知名度、其運維水平能力很高,open-falcon的功能相對完整、開放性及免費特色,相信在將來會在國內監控運維領域佔據一個很大很高的地位。不過因爲其發佈時間較短,不少基礎的服務監控插件(如Tomcat、apache等)還不支持,不少功能還在不斷完善中,另外因爲缺乏專門的支持,雖然有開放社區,可是解決問題的效率相對較低。

 

10. 10

OWL

  OWL 是大數據公司Talkingdata運維部開發的一款分佈式企業級監控解決方案。既能監控IT基礎資源,又支持其餘數據的監控,融合了運維人員喜聞樂見的語言和技術(如Python,Shell等),還能服務於開發人員,方便靈活地放入更多的業務監控指標。

OWL 體系架構

  因爲Talkingdata是作大數據分析的公司,所以在設計OWL 時,充分考慮了各類大數據算法及分佈式存儲,使得監控報警更加靈活,數據分析更加豐富,業務監控也比較方便。

  用戶羣:Talkingdata自用,預計在年末開源,已有很多運維開始關注。

  優勢:

  1. 基於複雜算法的浮動報警規則:OWL 不只支持固定報警閾值,也支持浮動報警。即在到達預設的閥值後,自動追加閥值,這樣必定程度上能夠下降信息的發送量,在系統恢復正常以後,OWL 監控系統也能自動恢復到以前的閥值;

  2. 靈活方便的用戶自定義報表:監控系統的每一個用戶(如網絡工程師,系統工程師,DBA,DevOps等)均可以定製本身的圖表工做臺;

  3. 真正可視化的資產管理:OWL最新版保持了先前的特點-模擬機櫃圖,現實資產的同時顯示主機的監控狀態,位置和狀態一目瞭然;

  4. 部署方便的Agent ,支持進程守護:OWL 的監控Agent 不依賴OS,方便部署,可支持多種插件,並藉助於雙生機制,實現了進程守護;

  5. 可平行擴展的底層數據存儲:選擇了平行擴展性好的hbase,上層使用tsdb封裝。這雖然喪失了靈活數據查詢形式,可是對於數據存儲,能夠作到比較好的透明化;

  缺點:因爲產品還沒有公開發布,因此只能從介紹信息判斷,目前產品還不是很成熟,功能主要圍繞Talkingdata自身的運維需求,包括可視化資產管理的內容。其它功能除了告警可能會更深刻以外,與open-falcon比較相似。

 

11. 11

360網站服務監控

360網站服務監控是一款面向廣大站長的網站監控產品,提供免費的網站、服務器監控。

用戶羣:我的站長

優勢:

服務免費,支持網站HTTP監控、PING監控、域名DNS監控和服務器監控

提供網站訪問全景數據和簡單配置信息。

缺點:

只支持簡單的網站和服務器監控,歷史數據保留15天,且免費監控點數量僅爲四個。

最後一次產品更新是2014年9月,目前已中止更新和運營支持。

 

12. 12

阿里雲監控

阿里雲監控是一款免費網站監控產品,可監控站點和服務器,並提供多種告警方式:短信,旺旺,郵件。

用戶羣:阿里雲用戶

優勢:

與阿里雲服務捆綁緊密,容許用戶自定義數據監控

阿里雲多IDC間內網數據傳輸,不佔用客戶公網資源

支持對業務數據的通用統計,從各個角度反應服務的運行狀況

缺點:

全部服務基於阿里雲,功能單一,擴展性差

功能不夠強大,只能知足基礎監控需求13. 13

百度雲觀測

百度雲觀測是百度推出的一款雲服務產品,相似於360雲監控、阿里雲監控,主要是爲站長提供免費的一站式網站監測、預警服務,功能覆蓋網站運行情況、安全和訪問速度等多個方面。

用戶羣:我的站長

優勢:

對於用戶每日訪問的站點進行安全檢測

國內各大城市雲節點覆蓋,支持CDN、DNS狀態和主機監控

缺點:

須要進行網站認證

監控點少,功能簡單,只能監測網站狀態,不支持服務器、應用監控。14. 14

小蜜蜂網站監測

小蜜蜂網站監測是一款針對中小企業需求開發的綜合測量網站運營狀況線上工具,能夠定時監控網站或服務器器的可用率(Uptime),一旦網站沒法連結、或是服務器發生錯誤,便可發送告警通知。

用戶羣:中小企業網站管理員

優勢:

小蜜蜂經過探測節點和Last Mile兩種模式監測網站可用性,支持多種站點監控類型和不一樣的網絡訪問傳輸協議;

提供多樣化監控告警設置,並支持站內實時告警消息,支持RSS

缺點:

只支持基本的網站監控,監控點不可選,監控服務不穩定;

網站性能歷史數據不夠詳細,且沒法導出。15. 15

隨着新技術的不斷髮展,雲服務已經互聯網企業的必須,可是長期以來會存在傳統物理主機和雲主機、私有云和公有云並存的狀態。此外,互聯網企業的發展速度很是快,小米、滴滴出行等不少企業都是在短短几年內發展起來的,所以選擇一款合適的雲監控產品,伴隨企業同步成長,是很是必要的。

相關文章
相關標籤/搜索