如今 SaaS 的發展勢頭已經沒法抵擋,只要持有企業信用卡,任何人均可以順利部署 SaaS 工具,並藉助 API,在短短几分鐘內鏈接其餘重要應用。而且開發者掌握了許多自動化快捷處理方式——好比說 Application Insight 應用部署和 Mobile Insight 移動應用測試——這極大地節省了推出新應用程序的時間。然而,不少管理應用程序和基礎設施的舊方法以及沒法跟上 SaaS 發展的步伐。html
所以,企業轉而採用各類專業監管工具——好比 Nagios 、 Zabbix 、 Solarwinds 和 AWS CloudWatch —— 旨在獲取對堆棧不一樣層次的深入認識。遺憾的是,這些工具難以實現交互的工做方式。各類監管工具的告警便層出不窮,數量之大,幾乎讓你分不清信號和噪音。ios
#####如何在噪音中準確尋獲信號?服務器
對於運維團隊來講,只是單純的獲取告警實際上是遠遠不夠的,由於咱們獲得了太多的告警。事實上,源源不斷的告警只會培養運維團隊無視告警的能力(沒法否定這是事實!)。當噪音很大時,你容易將不常見的信號也當成噪音。這可不是好事。運維
所以,運維團隊須要智能的總體解決方案和可操做數據的解決方案,這樣不只能自動處理超出人工可處理範圍的任務,還能在收到可操做告警後知道該如何處理。jsp
爲實現以上功能,結合告警平臺的已上線的功能,以國外的 BigPanda 和國內的 OneAlert 爲例,整合了運維團隊須要的解決方案應該包括的 5 個關鍵因素:工具
時間。運維團隊須要掌握實時動態。比起容易過期的快照,運維團隊須要輕鬆地掌握實時動態。可是,快照的優點在於可以讓你比較今天和昨天甚至是前一週的數據,OneAlert 最多可提供 1 年的存儲數據服務。測試
告警等級。若是你識別不了哪個告警是最重要的,你就不知道輕重緩急。通常分爲嚴重、警告、提醒三個等級。htm
告警類型。針對告警目標和內容的關聯度及過後影響,瞭解告警發出的真正緣由,從而肯定告警類型。事件
自動化和集成。當咱們沒法解決告警的時候(多是不擅長處理該類問題,還多是沒有時間處理!),咱們能夠在集成的工單系統中提交工單,對一些簡單的可自動化處理的問題,能夠直接自動化處理,如重啓服務器等。OneAlert 很是重視相關模塊的開發。開發
剖析大藍圖。今天的 IT 基礎設施並不存在任何孤島。一個應用的告警是其餘應用出現問題的信號。運維團隊須要瞭解每個 IT 難題怎樣串聯在一塊兒,又是如何相互影響的。剖析大藍圖必不可少。
綜合以上 5 個因素,能夠總結出提升運維團隊維穩效率的 2 個關鍵因素:時間洞察力和補救時間。
兩者之中,時間洞察力更爲重要,這個過程耗時越長,企業宕機時間的成本就越高,生產力損失就越大。你有足夠的信心去洞察嗎?你知道如何才能解決問題嗎?原有的監控工具忽略了補救時間的重要性。可是,請記住,若是咱們沒法衡量它,咱們就沒法改善它。所以,不斷改進是運維團隊緊跟時代步伐的惟一方式。
OneAlert 是北京藍海訊通科技有限公司旗下產品,中國首個 SaaS 模式的雲告警平臺,集成國內外主流監控/支撐系統,實現一個平臺上集中處理全部IT事件,提高IT可靠性。想了解更多信息,請訪問 OneAlert 官網 。
本文轉自 OneAPM 官方博客