詳情參考「企業監控利器-zabbix」http://waringid.blog.51cto.com/65148/904201。mysql
在瀏覽器中輸入http://192.168.0.189進入監控軟件登錄界面(圖二),登錄用戶名和密碼爲network,登錄後的界面如圖三所示。web
圖二:登陸界面sql
圖三:監控軟件框架圖數據庫
整個監控軟件界面共分爲七部份,分別是:瀏覽器欄、一級菜單欄、二級菜單欄、用戶設定欄、時間條和圖形顯示區。windows
信息部所使用的的zabbix版本爲2.0;數據據版本mysql5.1;zabbix客戶端代理安裝在c:\zabbix目錄下,該文件夾大小佔用600k~1M;成功安裝後在系統中生成服務「Zabbix Agent」,服務啓動方式爲自動(如圖一所示);監控狀態下windows監控代理天天(24小時)的數據傳輸量是14.0625K,對系統性能的影響小到能夠能夠忽略不計。當監控參數約爲100個時(其中基本參數66個,IIS或SQL參數16到27個不等),每分鐘取一個性能值(100*60*24=14400Byte)。瀏覽器
圖一:zabbix agent服務圖服務器
在Windows操做系統中,查看系統的性能能夠經過系統自帶的性能監視器查看操做系統的性能指標(如圖二5、二六所示)。網絡
圖二五:windows性能監視器架構
圖二六:windows性能監視器框架
Zabbix能夠經過相關參數直接獲取windows系統的監控值並以圖形的方式呈現。下面列出一些常見的windows監控參數。
Combined CPU Utilization % CPU利用率
Physical Disk Percent Idle Time 物理磁盤空閒比
Paging File % Usage 虛擬內存利用率
Average Read Transfer Time to Disk _Total 磁盤平均讀週期
Average Write Transfer Time to Disk _Total 磁盤平均寫週期
IIS Current Connections IIS當前鏈接數
ASP.Net Requests/Sec .NET請求數
SQL: Number of Connections SQL鏈接數
SQL: % Processor Time SQL的CPU利用率
SQL: Number Failed Jobs SQL失敗的做業數
2.4.1一級菜單欄 「監控」Monitoring項(圖三)提供監控設備的詳細數據,共十項二級菜單,包括:「儀表盤」項Dashboard、「總覽」項Overview、WEB項、「最新數據」項Latest data、「觸發器」項Triggers、「事件」項Events、「圖形」項Graphs、「多圖顯示」項Screen、「拓撲圖」項Maps、IT Services項。
圖三:Monitoring菜單
2.4.2一級菜單欄Inventory「資產」項(圖四)主要記錄被監控設備的配置清單(較少使用)。二級菜單包括資產總覽及主機項。
圖四:Inventory菜單
2.4.3一級菜單欄Reports「報告」項(圖五)主要提供被監控設備的性能報告(較少使用)。二級菜單包括「可用性報告」Avaliablity report、「前100個觸發數據」Triggers top 100、「柱形圖」Bar reports。
圖五:Reports菜單
2.5.1 設備故障事件詳情
登入zabbix後首先進入「maps」項查看總體網絡的情況,存在問題的服務器會顯示警告狀態(如圖六所示)。點擊該問題服務器後在彈出的菜單中選擇「status of triggers」可查看該問題的具體描述(如圖七所示),在圖七中詳細記錄了問題服務器的主機名稱、問題等級、問題的持續時間等狀態,其中名稱項「name」中記錄了觸發問題的緣由,點擊該欄會彈出觸發器的菜單項,其中的圖形「graph」項中以圖形方式顯示數據(如圖八所示)。本例中服務器故障的觸發緣由是「Low Percent free disk space on 192.168.0.58 volume c:」C盤空間不足,還能夠經過圖形項「graph」中找到該服務器顯示C盤佔用空間(如圖九所示),須要注意的是要選擇正確的組「group」和主機「host」及顯示的圖形「C:Used Disk Space Pie Graph」。
圖六:maps狀態圖
圖七:服務器事件圖
圖八:服務器故障事件數據圖
圖九:C盤空間佔用圖
2.5.2 組「group」的說明
按信息部規劃分爲多個組,對應關係以下表所示:
2.5.3 各組主機「Host」的說明
主機「host」表示對應的服務器(包括支持的網絡設備,操做系統、虛擬操做系統等),當選中組「group」後會在主機「host」欄中顯示該組對應的主機設備,各組對應的主機以下表所示。
2.5.4 時間條說明
在圖形顯示項中最上層的是時間狀態欄。經過時間欄可選擇按每小時、每2小時、每3小時、每6小時、每12小時、天天、每週、每2周、每個月、全部天數這些方式查看圖形。如圖十8、十9、二10、二十一所示。
圖十八:時間軸圖
圖十九:每小時圖
圖二十:天天圖
圖二十一:全部天數圖
時間條除了能夠選擇按不一樣的時間點顯示外,還能夠經過拉動時間條方塊的方式顯示特定時間的狀態圖,如圖二十二所示。
圖二十二:時間條圖
在圖二十二中,上面箭頭是時間條,下面箭頭表示詳細的時間。本例中選擇按每小時方式顯示,下半部份的時間則以分鐘的方式顯示。當移動時間條時,圖形和下半部份的時間一塊兒變化。
圖二十三:時間說明圖
除了上面幾種方式查看圖表外,也能夠直接選定相應的曲線查看詳細的數據圖,如圖二十三。上圖中第2處即爲手工選定方式查看數據,其中圖中灰色部份(標識1)表示下班時間,白色部份表示上班時間(週一至週五,8:30至17:30)。
2.5.5 常見圖形「Graph」的說明
當選中主機全部的組「group」和相應的主機「host」後,就需選擇和該主機相關的顯示圖形,經常使用的性能監控圖有如下幾種。
C: Used Disk Space Pie Graph
C盤可用空間圖,記錄C盤總體空間大小和已使用空間的詳細值和佔用百分比,當C盤的可用空間低於整個C盤的5%時會觸發「C盤可用空間不足5%的報警,如圖十所示。
圖十:C盤空間佔用圖
CPU, Disk % Utilization
CPU、磁盤及虛擬內存利用率圖,記錄虛擬內存使用率「Paging File(_Total)\% Usage」、物理磁盤空閒率「PhysicalDisk(_Total)\% Idle Time」及CPU使用率「Processor(_Total)\% Processor Time」。其中10分鐘內磁盤空閒利用率低於30%或10分鐘內CPU利用率達到90%將觸發報警。如圖十一所示。
圖十一:CPU、磁盤及虛擬內存利用率圖
Interface Traffic
網卡流量圖,記錄設備的網卡流量圖。網卡流量統計分爲出、入兩個方向「net.if.in[{IPADDRESS}]」「net.if.out[{IPADDRESS}]」,如圖十二所示。
圖十二:網卡流量圖
Local File Systems % Free
邏輯磁盤空閒狀態圖,記錄磁盤的空間使用率「vfs.fs.size[c:,pfree]」。對於系統不存在的磁盤,監控值顯示「no data」,如圖十三所示。
圖十三:磁盤空間使用圖(空閒率)
Memory Usage
內存使用圖,記錄總體內存大小「vm.memory.size[total]」及內存可用空間大小「vm.memory.size[free]」。如圖十四所示。
圖十四:內存空間圖
Read/Write Disk Response Time
磁盤讀/寫響應時間,記錄物理磁盤的讀響應時間「PhysicalDisk(_Total)\Avg. Disk sec/Read」以及寫響應時間「PhysicalDisk(_Total)\Avg. Disk sec/Write」。其中在10分鐘內若是磁盤讀操做時間超過30ms或寫操做時間超過50ms將觸發報警提示。如圖十五所示。
圖十五:磁盤讀寫響應時間圖
MicrosoftSQLServerConnJob
數據庫性能圖,記錄數據庫軟件(包括sql2000、sql200五、sql2008)性能。每秒徹底掃描次數「SQLServer:Access Methods\Full Scans/sec」、失敗退出的做業數「SQLAgent:Jobs(_Total)\Failed jobs」、當前與SQL Server鏈接的用戶數「SQLServer:General Statistics\User Connections」、每秒大容量複製的數據量(KB)「SQLServer:Databases(_Total)\Transactions/sec」。如圖十六所示。
圖十六:SQL Server性能圖
IIS Counters Overview
WEB性能圖,記錄WEB服務器的鏈接數「Web Service(_Total)\Current Connections」及當前asp.NET請求數「ASP.NET\Requests Current」。如圖十七所示。需注意WEB服務器默認最大的鏈接數爲4000(4K)。
圖十七:web服務性能圖
最新數據「last data」用來顯示該主機全部的監控數據(記錄主機最後獲取的數據值,也能夠圖形顯示),登陸後點擊「Monitoring」-「last data」進入該選項。
該選項顯示的內容會隨主機監控參數的不一樣而變化,對於windows主機,主要包含如下內容(如圖二十四所示):
圖二四:last data圖
名稱「Name」部份用於描述監控的內容;最後更新時間「last check」用於顯示最新數據的更新時間;最新數據「last value」用於顯示最新的監控值;更改「change」表示本次數據與上次數據的差值;歷史「history」顯示該監控項的歷史圖形。
3.1.1 可用性「Availability」
圖二七:availability圖
可用性「Availability」項主要記錄內存和磁盤的可用性共包含9項內容,分別是:
Free disk space on c: C盤可用空間
Free disk space on d: D盤可用空間
Free memory 可用內存空間
Memory Commit Limit (RAM plus Page File) 內存可用數(包括虛擬內存)
Percent Free disk space on c: C盤可用空間百分比
Percent Free disk space on d: D盤可用空間百分比
Total disk space on c: C盤容量
Total disk space on d: D盤容量
Total memory 內存大小
3.1.2 CPU
CPU項(如圖二八所示)主要記錄CPU的性能及CPU的使用狀況共包含6項內容:
圖二八:CPU圖
Combined CPU Utilization % CPU處理非閒置進程的百分比
CPU Count CPU內核數量(個數*核*線程數)
CPU Utillization CPU利用率
Processor load CPU負載(一分鐘)
Processor load15 CPU負載(十五分鐘)
Processor load5 CPU負載(五分鐘)
3.1.3 磁盤「DISK」
DISK項(如圖二九所示)記錄磁盤的性能,包括磁盤的讀、寫、隊列的傳輸及空閒使用等指標,共包含5項內容:
圖二九:DISK圖
Average Read Transfer Time to Disk _Total 磁盤平均讀響應時間
Average Write Transfer Time to Disk _Total 磁盤平均寫響應時間
Avg. Combined(Read/Write) Transfer Operation to Disk 磁盤讀寫響應時間
Physical Disk Avg. Queue Length 磁盤平均數據隊列響應
Physical Disk Percent Idle Time 磁盤空閒率
3.1.4 文件系統「Filesystem」
Filesystem項(如圖三十所示)記錄磁盤文件傳輸時隊列的磁盤傳輸時間,共2項內容:
圖三十:Filesystem圖
Average disk read queue length 磁盤隊列讀週期(平均)
Average disk write queue length 磁盤隊列寫週期(平均)
3.1.5 通用「General」、內存「Memory」、操做系統「OS」
General項記錄主機的開機時間,而Memory項主要記錄虛擬內存的利用率,OS記錄主機的線程數量(如圖三一所示),共3項內容:
圖三一:Memory、General、OS圖
Host uptime (in sec) 主機已運行時間
Paging File % Usage 虛擬內存利用率
Number of threads 主機上運行的線程數量
3.1.6 網絡「Network」
Network項(如圖三二)記錄主機網卡的流量,包括兩個方向(IN、OUT),共2項內容:
圖三二:network圖
nic0_in 進入網卡的流量
nic0_out 經網卡出去的流量
3.1.7 性能「Performance」
Performance項(圖三三)記錄磁盤的性能,包括邏輯磁盤和物理磁盤的性能,共3項目內容:
圖三三:Performance圖
Average disk read queue length 讀取請求(磁盤在實例間隔中列隊的)的平均數
Physical Disk Avg. Queue Length 磁盤上平均的請求數量
Physical Disk Current Queue Length 磁盤上當前的請求數量
3.1.8 IIS
IIS項(圖三四)記錄IIS及WEB相關的性能值,包括服務的狀態和相關的性能點,共9項內容:
圖三四:IIS圖
HTTP SSL: Service State SSL服務狀態
IIS Admin: Service State IIS Admin服務狀態
IIS Current Anonymous Users 當前IIS匿名訪問用戶數
IIS Current Connections IIS當前鏈接數
IIS Current NonAnonymous Users IIS當前非匿名用戶數
IIS Get Requests/s IIS Get請求數/秒
IIS Head Requests/s IIS Head請求數/秒
IIS Post Requests/s IIS Post請求數/秒
Microsoft IIS: Service State IIS服務狀態
3.1.9 MSSQL
MSSQL項(圖三五)記錄microsoft SQL數據庫的性能,包括服務狀態及相關性能值,共15項內容:
圖三五:MSSQL圖
SQL: Buffer cache hit ratio SQL緩衝管理器/緩衝命中率
SQL: Data File Size 數據庫文件大小
SQL: Database Pages SQL緩衝管理器/數據庫頁
SQL: Full Tables Scans/sec SQL訪問方法/徹底訪問/秒
SQL: Lazy writes/sec SQL緩衝管理器/惰性寫入/秒
SQL: Lock Waits per second SQL鎖等待/秒
SQL: Log File Size 日誌文件大小
SQL: Number Failed Jobs 失敗的做業數
SQL: Number of Connections 當前的SQL鏈接數
SQL: Number of Deadlocks per second SQL每秒死鎖數
SQL: Service State - SQL Server SQL服務狀態
SQL: SQLServer Buffer Manager Total pages SQL緩衝管理器/所有頁
SQL: Target Server Memory SQL目標服務器內存
SQL: Total Server Memory SQL總的服務器內存
SQL: Transactions per second SQL每秒大容量複製的數據量
3.2 報表功能Reports
在zabbix中關於報表的功能有三項:
Avaliability report:(圖三六)整個系統可用的系統報表提供過濾功能。
圖三六:avaliability report圖
Most busy triggers top 100:(圖三七)提供最經常使用的triggers 預覽。
圖三七:triggers top 100圖
Bar report :(圖三八)可定製報表能夠報多個報表整合到一塊兒。
圖三八:bar report圖
圖三九:面板頁
Zabbix支持多種網絡方式下的監控,可經過分佈式的方式部署和安裝監控代理,整個架構如(圖四十)所示。
圖四十:架構圖
2.2中詳細介紹了數據在zabbix中的存儲方式,對於單個監控值zabbix在後臺數據庫中會存入三個數值(最大值、最小值、平均值),現階段數據庫空間佔用(30臺設備44天數據)狀況(如圖四一)所示。
Zabbix存在的性能瓶頸主要在於磁盤的性能(數據庫的寫操做),而CPU及內存佔用相對較低,如圖四2、圖四三所示。
圖四三:數據庫性能