哪一種監控工具纔是運維人的最愛？

時間 2019-11-09

標籤哪一種監控工具纔是最愛简体版

原文原文鏈接

哪一種監控工具纔是運維人的最愛？ ios

那些指標須要監控？我能監控到什麼？能監控到何種程度？或許這些問題連你本身都難說清楚。先看看運維兄弟們的現狀。 shell

1．運維現狀數據庫

傳統企業的計算機運維是在用戶使用計算機過程當中發現故障以後，通知運維人員，再由運維人員採起相應的補救措施。運維人員平常大部分時間和精力都花在處理簡單且重複的問題上，並且因爲故障預警機制不完善，每每是故障發生後纔會進行處理，這種狀況使運維人員的工做常常處於被動「救火」狀態，這種被動的運維模式讓IT部門疲憊不堪。運維質量如何提升？生產部門能對運維部有滿意的評價嗎？安全

目前咱們在運維管理過程當中缺乏明確的角色定義和責任劃分，以及自動化的集成運維管理平臺，以致於問題出現後很難快速、準確地找到緣由，並且在處理故障以後也缺少必要的跟蹤與記錄。服務器

2．隱藏在流量背後的祕密網絡

網絡接口的通端，流量的大小，已知足不了目前運維故障排除的須要。咱們須要將流量分析的更深刻，更細緻。運維

圖1 傳統流量監控工具看錶象 分佈式

不少漏洞利用攻擊、ShellCode攻擊都混雜着正常流量進入企業網層層防禦關卡。要想知道每一個數據包中攜帶了什麼內容，普通的攝像頭已經失效，須要更強大的X透視相機-進行協議分析，只有準確理解事物的本質，才能對症下藥，Shellcode攻擊（下圖是shellcode和botnet的實例）和各類蠕蟲也是如此。工具

3.大數據時代下安全運維的新挑戰性能

運維工程師們在大數據時代，下面對大量網絡安全事件，若沒有有效工具是沒法完成分析工做，他們每每面對以下挑戰：

1）天天出現巨大數量的安全報警，管理員很難對這些報警作出響應。

2）誤報嚴重，管理員沒法準確判斷故障。

3）大量重複、零散而沒有規律的報警，黑客的一次攻擊行動，會在不一樣階段觸發不一樣安全設備的告警，這樣致使報警數據之間在時間和空間上存在大量重複數據，若是不實現安全事件的關聯處理，就沒法有效的提升告警質量。

當出現這些問題的部分緣由是企業缺少事件監控和診斷等運維工具，由於若是沒有高效的管理工具支持，就很難讓故障事件獲得主動、快速處理。市面上有不少運維監控工具，例如商業版的Cisco Works 2000、Solarwinds、ManageEngine以及專一故障監控的WhatsUp，在開源領域有MRTG、Nagios、Cacti、Zabbix、Zenoss、OpenNMS、Ganglia等。因爲它們彼此之間沒有聯繫，即使是你部署了這些工具，不少運維人員並無從中真正解脫出來，緣由在於目前的技術雖然可以獲取計算機設備、服務器、網絡流量，甚至數據庫的警告信息，但成千上萬條警告信息堆積在一塊兒，讓人根本沒辦法判斷問題的根源在哪裏，缺少對信息進行篩選、數據挖掘的能力,其實咱們並不缺乏工具，商業的也好，開源的也吧，一抓一大把，爲何仍是用很差？真正缺乏的是分析數據的智能化。

另外咱們的查看各類監控系統須要屢次登陸，查看繁多的界面，更新管理絕大多數工做都是手工操做，即便一個簡單的系統變動或更新，每每須要運維人員逐一登陸系統，當設備數量達到成百上千時，其工做量之大可想而知。而這樣的變動和檢查操做在IT 運維中每每天天都在進行，這無疑會佔用大量的運維資源。所以，運維工做人員須要統一的集成安全管理平臺已迫在眉睫。

過去僅靠幾個「技術大拿」來包打天下已不能知足要求，企業須要一種安全的運維平臺，知足專業化、標準化和流程化的須要來實現運維工做的自動化管理。由於經過集成監控系統能及時發現故障隱患，主動的告訴用戶須要關注的資源，感知網絡威脅，把故障消除在萌芽狀態。這極大下降了運維人員的工做負擔，最大限度地減小維修時間,提升服務質量。

4．人工整合開源工具

既然找不到合適的，咱們就把經常使用的開源工具集成到一個Linux平臺，這不是就實現統一管理平臺了嗎？

人工整合開源監控系統的難點：

1．軟件和依賴依賴問題難以解決。

2．各子系統界面重複驗證和界面風格問題。

3．各子系統數據沒法共享。

4．沒法實現數據之間關聯分析。

5．沒法生成統一格式的報表。

6．缺少統一的儀表板來展現重要監控信息。

7．沒法對網絡風險進行檢測。

8．各子系統維護難度，增大了運維成本。

實踐中發現，這種方案首先遇到了性能問題，一些腳本週期性消耗了較多的CPU和I/O資源，因此沒法作到實時數據分析。試想有多少且能投入大量人力、時間去開發一個未知的監控平臺？

5．集成安全運維平臺的選擇

一個好的安全運維平臺須要將事件與IT 流程相關聯，一旦監控系統發現性能超標或出現宕機現象，就會觸發相關事件以及事先定義好的流程，自動啓動故障響應和恢復機制。還須要可以篩選出運維人員完成平常的重複性工做，提升運維效率。要實現這些功能都是常規監控軟件Cacti、Zabbix所沒法實現。

同時，還要求可以預測網絡蠕蟲威脅，在故障發生前可以報警，讓運維人員把故障消除在萌芽狀態，將所產生損失減到最低。總的來講運維人須要可以在一個平臺中實現資產管理、分佈式部署、漏洞掃描、風險評估、策略管理、實時流量監控、異常流量分析、攻擊檢測報警、關聯分析、風險計算、安全事件告警、事件聚合、日誌收集與分析、知識庫、時間線分析、統一報表輸出、多用戶權限管理的功能，這種集成開源工具到底有沒有？它去哪兒啦？

目前市面上有兩種產品可知足這樣的要求，目前市面上的SIEM產品主要有HP Arcsight（後臺掛Oracle庫）、IBM Security QRadar SIEM和Alienvault的OSSIM USM，如今的問題是並不缺乏商業SIEM解決方案，在開源軟件中OSSIM到是最佳選擇。