2016運維團隊所需解決方案的5個關鍵因素

時間 2019-11-17

標籤團隊所需解決方案關鍵因素简体版

原文原文鏈接

如今 SaaS 的發展勢頭已經沒法抵擋，只要持有企業信用卡，任何人均可以順利部署 SaaS 工具，並藉助 API，在短短几分鐘內鏈接其餘重要應用。而且開發者掌握了許多自動化快捷處理方式——好比說 Application Insight 應用部署和 Mobile Insight 移動應用測試——這極大地節省了推出新應用程序的時間。然而，不少管理應用程序和基礎設施的舊方法以及沒法跟上 SaaS 發展的步伐。html

所以，企業轉而採用各類專業監管工具——好比 Nagios 、 Zabbix 、 Solarwinds 和 AWS CloudWatch —— 旨在獲取對堆棧不一樣層次的深入認識。遺憾的是，這些工具難以實現交互的工做方式。各類監管工具的告警便層出不窮，數量之大，幾乎讓你分不清信號和噪音。ios

#####如何在噪音中準確尋獲信號？服務器

對於運維團隊來講，只是單純的獲取告警實際上是遠遠不夠的，由於咱們獲得了太多的告警。事實上，源源不斷的告警只會培養運維團隊無視告警的能力（沒法否定這是事實！）。當噪音很大時，你容易將不常見的信號也當成噪音。這可不是好事。運維

所以，運維團隊須要智能的總體解決方案和可操做數據的解決方案，這樣不只能自動處理超出人工可處理範圍的任務，還能在收到可操做告警後知道該如何處理。jsp

爲實現以上功能，結合告警平臺的已上線的功能，以國外的 BigPanda 和國內的 OneAlert 爲例，整合了運維團隊須要的解決方案應該包括的 5 個關鍵因素：工具

時間。運維團隊須要掌握實時動態。比起容易過期的快照，運維團隊須要輕鬆地掌握實時動態。可是，快照的優點在於可以讓你比較今天和昨天甚至是前一週的數據，OneAlert 最多可提供 1 年的存儲數據服務。測試
告警等級。若是你識別不了哪個告警是最重要的，你就不知道輕重緩急。通常分爲嚴重、警告、提醒三個等級。htm
告警類型。針對告警目標和內容的關聯度及過後影響，瞭解告警發出的真正緣由，從而肯定告警類型。事件
自動化和集成。當咱們沒法解決告警的時候（多是不擅長處理該類問題，還多是沒有時間處理！），咱們能夠在集成的工單系統中提交工單，對一些簡單的可自動化處理的問題，能夠直接自動化處理，如重啓服務器等。OneAlert 很是重視相關模塊的開發。開發
剖析大藍圖。今天的 IT 基礎設施並不存在任何孤島。一個應用的告警是其餘應用出現問題的信號。運維團隊須要瞭解每個 IT 難題怎樣串聯在一塊兒，又是如何相互影響的。剖析大藍圖必不可少。