哪一種監控工具纔是運維人的最愛? ios
那些指標須要監控?我能監控到什麼?能監控到何種程度?或許這些問題連你本身都難說清楚。先看看運維兄弟們的現狀。 shell
1.運維現狀 數據庫
傳統企業的計算機運維是在用戶使用計算機過程當中發現故障以後,通知運維人員,再由運維人員採起相應的補救措施。運維人員平常大部分時間和精力都花在處理簡單且重複的問題上,並且因爲故障預警機制不完善,每每是故障發生後纔會進行處理,這種狀況使運維人員的工做常常處於被動「救火」狀態,這種被動的運維模式讓IT部門疲憊不堪。運維質量如何提升?生產部門能對運維部有滿意的評價嗎? 安全
目前咱們在運維管理過程當中缺乏明確的角色定義和責任劃分,以及自動化的集成運維管理平臺,以致於問題出現後很難快速、準確地找到緣由,並且在處理故障以後也缺少必要的跟蹤與記錄。 服務器
2.隱藏在流量背後的祕密 網絡
網絡接口的通端,流量的大小,已知足不了目前運維故障排除的須要。咱們須要將流量分析的更深刻,更細緻。 運維
圖1 傳統流量監控工具看錶象 分佈式
不少漏洞利用攻擊、ShellCode攻擊都混雜着正常流量進入企業網層層防禦關卡。要想知道每一個數據包中攜帶了什麼內容,普通的攝像頭已經失效,須要更強大的X透視相機-進行協議分析,只有準確理解事物的本質,才能對症下藥,Shellcode攻擊(下圖是shellcode和botnet的實例)和各類蠕蟲也是如此。 工具
3.大數據時代下安全運維的新挑戰 性能
運維工程師們在大數據時代,下面對大量網絡安全事件,若沒有有效工具是沒法完成分析工做,他們每每面對以下挑戰:
1) 天天出現巨大數量的安全報警,管理員很難對這些報警作出響應。
2) 誤報嚴重,管理員沒法準確判斷故障。
3) 大量重複、零散而沒有規律的報警,黑客的一次攻擊行動,會在不一樣階段觸發不一樣安全設備的告警,這樣致使報警數據之間在時間和空間上存在大量重複數據,若是不實現安全事件的關聯處理,就沒法有效的提升告警質量。
當出現這些問題的部分緣由是企業缺少事件監控和診斷等運維工具,由於若是沒有高效的管理工具支持,就很難讓故障事件獲得主動、快速處理。市面上有不少運維監控工具,例如商業版的Cisco Works 2000、Solarwinds、ManageEngine以及專一故障監控的WhatsUp,在開源領域有MRTG、Nagios、Cacti、Zabbix、Zenoss、OpenNMS、Ganglia等。因爲它們彼此之間沒有聯繫,即使是你部署了這些工具,不少運維人員並無從中真正解脫出來,緣由在於目前的技術雖然可以獲取計算機設備、服務器、網絡流量,甚至數據庫的警告信息,但成千上萬條警告信息堆積在一塊兒,讓人根本沒辦法判斷問題的根源在哪裏,缺少對信息進行篩選、數據挖掘的能力,其實咱們並不缺乏工具,商業的也好,開源的也吧,一抓一大把,爲何仍是用很差?真正缺乏的是分析數據的智能化。
另外咱們的查看各類監控系統須要屢次登陸,查看繁多的界面,更新管理絕大多數工做都是手工操做,即便一個簡單的系統變動或更新,每每須要運維人員逐一登陸系統,當設備數量達到成百上千時,其工做量之大可想而知。而這樣的變動和檢查操做在IT 運維中每每天天都在進行,這無疑會佔用大量的運維資源。所以,運維工做人員須要統一的集成安全管理平臺已迫在眉睫。
過去僅靠幾個「技術大拿」來包打天下已不能知足要求,企業須要一種安全的運維平臺,知足專業化、標準化和流程化的須要來實現運維工做的自動化管理。由於經過集成監控系統能及時發現故障隱患,主動的告訴用戶須要關注的資源,感知網絡威脅,把故障消除在萌芽狀態。這極大下降了運維人員的工做負擔,最大限度地減小維修時間,提升服務質量。
4.人工整合開源工具
既然找不到合適的,咱們就把經常使用的開源工具集成到一個Linux平臺,這不是就實現統一管理平臺了嗎?
人工整合開源監控系統的難點:
1. 軟件和依賴依賴問題難以解決。
2. 各子系統界面重複驗證和界面風格問題。
3. 各子系統數據沒法共享。
4. 沒法實現數據之間關聯分析。
5. 沒法生成統一格式的報表。
6. 缺少統一的儀表板來展現重要監控信息。
7. 沒法對網絡風險進行檢測。
8. 各子系統維護難度,增大了運維成本。
實踐中發現,這種方案首先遇到了性能問題,一些腳本週期性消耗了較多的CPU和I/O資源,因此沒法作到實時數據分析。試想有多少且能投入大量人力、時間去開發一個未知的監控平臺?
5.集成安全運維平臺的選擇
一個好的安全運維平臺須要將事件與IT 流程相關聯,一旦監控系統發現性能超標或出現宕機現象,就會觸發相關事件以及事先定義好的流程,自動啓動故障響應和恢復機制。還須要可以篩選出運維人員完成平常的重複性工做,提升運維效率。要實現這些功能都是常規監控軟件Cacti、Zabbix所沒法實現。
同時,還要求可以預測網絡蠕蟲威脅,在故障發生前可以報警,讓運維人員把故障消除在萌芽狀態,將所產生損失減到最低。總的來講運維人須要可以在一個平臺中實現資產管理、分佈式部署、漏洞掃描、風險評估、策略管理、實時流量監控、異常流量分析、攻擊檢測報警、關聯分析、風險計算、安全事件告警、事件聚合、日誌收集與分析、知識庫、時間線分析、統一報表輸出、多用戶權限管理的功能,這種集成開源工具到底有沒有?它去哪兒啦?
目前市面上有兩種產品可知足這樣的要求,目前市面上的SIEM產品主要有HP Arcsight(後臺掛Oracle庫)、IBM Security QRadar SIEM和Alienvault的OSSIM USM,如今的問題是並不缺乏商業SIEM解決方案,在開源軟件中OSSIM到是最佳選擇。
不少人只是膚淺的認爲OSSIM只是將一些開源工具集成到一個平臺,在OSSIM中顛覆性創新主要在易用(容易安裝、部署,容易使用,幾乎不用本身寫腳本)、分佈式監控系統、響應威脅(OTX)、關聯分析引擎、可視化攻擊展現等。
Alienvault分爲開源OSSIM和商業版USM兩種,經過這一集成監控工具實現對用戶操做規範的約束和對計算機資源進行準實時監控,包括服務器、數據庫、中間件、存儲備份、網絡、安全、機房、業務應用等內容,經過自動監控管理平臺實現故障或問題綜合處理和集中管理。
若是你即不想購買昂貴的商業軟件,又不肯意投入大量精力進行開發,那麼實現集成安全管理平臺OSSIM就是惟一的選擇。
好了,咱們看看OSSIM可以爲你帶來怎樣的體驗? 進入
看完後,有何感言?若是你想系統學習OSSIM,請關注我即將出版的第四本專著
《開源安全運維平臺--OSSIM最佳實踐》。