要讓服務器運行良好並且平穩的話,一個很是艱鉅重大的任務就是作好網絡運維管理。網絡管理員使用了許多工具來監視服務器的運行情況,並查看網絡流量的上升和降低情況。他們還必須確保整個服務器網絡可以平穩地運行,由於只要有一分鐘的網絡中斷就會使得整個機構的工做出現混亂。ios
使得服務器網絡平穩運行的最重要的方式之一就是使用各類網絡運維管理軟件。現有的網絡運維管理軟件能夠說是多種多樣的,可是這些工具每每比較昂貴,所以花些時間去選購是很值得的,須要仔細研究其適用性、性能、專業性等方面的特性,須要判斷的因素不少,但短期內理解這些指標並做出選擇可不是一件容易的事。web
隨着現今互聯網行業的迅速發展,某些物聯網服務的用戶已經達到了億級,如淘寶網註冊用戶已達到3.7億,僅在2015年雙十一當天活躍用戶過億。支撐如此龐大用戶使用的硬件基礎是規模龐大的服務器羣。如何獲取每一臺服務器的運行狀態,及時獲悉潛在隱患,出現問題及時鎖定排除顯得相當重要。機房運維人員以及高層決策人員只有在實時掌握這些信息後纔可有效地對進行決策,如在訪問流量過大或其餘惡意攻擊後是及時關閉服務仍是啓動備用服務,服務區癱瘓後是須要工做人員至機房處理硬件問題仍是隻需遠程重啓服務器等相似或簡單或複雜的決策,都須要底層專家系統信息的支持。數據庫
現今比較成熟的開源服務器底層數據的採集解決方案主要有SugarNMS和Nagios。瀏覽器
Nagios是一個監視系統運行狀態和網絡信息的監視系統,能監視所指定的本地或遠程主機以及服務,同時提供異常通知功能等。Nagios可運行在Linux/Unix平臺之上,同時提供一個可選的基於瀏覽器的Web界面以方便系統管理人員查看網絡狀態,各類系統問題,以及日誌等等。 安全
監控網絡服務(SMTP、POP三、HTTP、NNTP、PING等); 二、監控主機資源(處理器負荷、磁盤利用率等); 服務器
簡單地插件設計使得用戶能夠方便地擴展本身服務的檢測方法; 四、並行服務檢查機制; 網絡
具有定義網絡分層結構的能力,用"parent"主機定義來表達網絡主機間的關係,這種關係可被用來發現和明晰主機宕機或不可達狀態; 架構
當服務或主機問題產生與解決時將告警發送給聯繫人(經過EMail、短信、用戶定義方式); 併發
能夠定義一些處理程序,使之可以在服務或者主機發生故障時起到預防做用; 八、自動的日誌滾動功能; app
能夠支持並實現對主機的冗餘監控;
可選的WEB界面用於查看當前的網絡狀態、通知和故障歷史、日誌文件等[2]; 十一、能夠經過手機查看系統監控信息;
智和網管平臺主要基於SNMP網絡協議對服務器進行運維監控,固然若是是其餘協議的設備也能夠進行協議擴展。
平臺採用了J2SE、XML、Web Service、Web、HTML五、JavaScript、Struts、Spring、Hibernate、SNMP、HTTP、JDBC、Swing、RMI、O-M Mapping、O-R Mapping、Muti-Thread等成熟技術。由表示層、業務層、數據層和設備中間層多層次架構模式組成,提供corba和webservice接口。框架採用設備中間層屏蔽不一樣廠商設備管理協議的差別,實現支持管理不一樣類型的被管設備。
在自動發現的過程當中能夠搜索到服務器,並識別服務器的廠商型號,生成設備的面板圖或搜索設備資源,如:板卡、端口、CPU、內存、磁盤等。自動設備生成拓撲圖。
在拓撲圖上選中服務器,點擊右鍵,選擇設備綜合信息。便可查看服務的整體報告、詳細信息、管理建議等信息。
智和網管平臺實時動態監控網絡和設備的運行狀態。經過告警來反映設備的運行狀態。設備的某個故障監視器(工做狀態監視器),在某個時刻只能有一個狀態。設備有多少個故障監視器,就有多少個對應的狀態燈。
設備和資源圖標上會顯示設備最嚴重的狀態燈顏色,如設備有4個故障監視器,對應的是紅、黃、藍、綠5個狀態燈,那麼在設備圖標上顯示紅燈。一樣網絡圖標上會顯示網絡下最嚴重的設備狀態燈顏色。如網絡下有2個設備,一個設備最嚴重的是紅色,另外一個設備最嚴重的是黃色,則網絡顯示紅色。
智和網管平臺實時在拓撲界面、資源視圖、全網工做狀態、告警列表中顯示告警信息。
全面採集服務器資源、應用、服務等性能信息。可將性能信息數據按照時間、資源、性能類型等多種維度以圖表等形式展示。支持根據資源類型、監視器種類、時間間隔組合條件查看設備某類資源的實時性能數據;根據時間範圍,資源監視器類型以圖形和列表的方式展現設備的單個資源的詳細性能值。
自動發現:在自動發現的過程當中可搜索到網絡設備,並識別設備類型和廠商型號,生成設備的面板圖或搜索設備資源,如:板卡、端口、CPU、內存、磁盤等,並發現設備之間的鏈路關係。
拓撲管理:以具象化拓撲圖方式展現網絡設備及其鏈接關係,用戶可編輯。經過拓撲圖能夠對設備、設備資源、鏈接進行管理。
設備管理:經過拓撲視圖中,用戶能夠方便的管理設備及其配置參數。
設備資源管理:支持在拓撲圖的基礎上,進一步展現設備細節,包括設備的物理組件,服務器上的服務(Web服務器、中間件應用服務、數據庫服務器、郵件服務器)或者用戶定義的其餘監控對象。
鏈接管理:用戶能夠經過拓撲視圖編輯鏈接,選擇鏈接實時顯示的性能數據項。
安全管理:支持多種安全管理功能,如QOS安全策略、MAC-IP綁定、黑白名單以及准入控制等。
統計報表:支持多項數據的統計功能,讓用戶對網絡有一個全面直觀的瞭解放。支持將軟件中的統計圖表導出或打印,以便備份或對比查看。
整個系統利用智和網管平臺開源服務器運維監控解決方案,同時進行二次開發和擴展集成。實現了一套可管理、可監控、可報警的服務器運維監控專家系統。本平臺實現了用戶對機房的管理與運維監控,更重要的是利用這些信息來與其兄弟單位、子單位以及服務單位的數據對接聯通狀況。保證了用戶能夠實時、清晰、準確地瞭解預報中心各級業務環節的運行狀態。一旦出現問題,用戶能夠及時根據這些信息進行決策,保證業務信息點及時發佈。