如何把關聯性的告警智能添加到 Nagios 上?(2)

######上節回顧ios

對於許多 IT 和運維團隊來講,Nagios 既是一個福音也是一個詛咒。一方面,Naigos 在 IT 應用的工做領域中,給予了你能夠實時查看告警數據的可能性;可是另外一方面,Nagios 也可以生成超級多的告警,對於任何一個運維人員或是運維團隊來講都是 hold 不住的。算法

因爲告警浪潮的緣由,咱們收件箱時常會爆滿,移動電話也會被逼調成靜音狀態。更使人沮喪的是,這些告警只不過僅僅是噪音而已。安全

Nagios 所欠缺的就是一個智能的管理系統,能夠在噪音背景中,幫助運維人員挑選出真正的有意義的告警。運維

固然,提及來容易作起來難。分佈式

在上一篇文章中,咱們討論了爲何 Naigos 起初會生成如此之多的告警,而且不多是須要實際執行的。工具

那麼如今,讓咱們來討論下該如何把告警智能化。 如何把關聯性的告警智能添加到Nagios上?學習

######告警關聯 惟一使監控和報警都步入正軌的好辦法,就是經過告警關聯。若是成百上千個告警都潛在的指向着同一個根本問題「固然狀況也經常如此」,咱們須要的就是一種可以瞬間查找到關聯這些告警的方法,這纔是真正的問題所在。優化

如下這個例子,能夠很好的理解告警關聯,並告訴你如何提高應用監控。阿里雲

例如一個 MySOL 集羣,這裏面一些主機的頁面上有着很高的錯誤率,而其他一些只是發出低內存的警告。此時你的 Nagios 圖表盤在30分鐘裏,會接受到不止20個獨特的告警,這其實看起來沒有太大的意義。你的電子郵件收件箱看起來就像一個垃圾桶,而且當你離開辦公室之後,你口袋裏的移動電話還會嗡嗡的響。事件

咱們能夠用一個正確的方式和一個錯誤的方式來分別處理這些告警。錯誤的方式就是將全部這些告警都做爲單一的獨立信息,而不是把這些警告看作是一個完整事件的表明。這樣當告警洪潮來臨的時候,咱們根本沒法尋找到這個發起者。

而正確的方法則是,透過圖表盤的數據來看這些報警關聯的特徵,整條告警潮流可能都會被組合在一塊兒。全部這些集羣的頁面錯誤告警都將被聚合,指出真正的根源所在,而且會一直在咱們的掌控中,即便被告警浪潮淹沒也不怕。

除了沒有關聯性質的「好比在 MySQL 節點上的一個存儲問題」事件,大部分的告警均可以被整合收集在一塊兒。咱們能夠輕易的歸類這些告警信息,並跟其餘的相似事件劃分開。這樣在一個告警洪流中,被湮滅的將會是其餘無心義的告警了。

告警關聯是一個分組的方法,有着高度相關聯的一系列告警信息,就會被分爲一個高級事件。

######告警過濾

還有其餘方法能夠對抗告警洪潮嗎?有是有,但它們都很無用。

一個一般被用於企業的方法,就是告警過濾。監控工程師本身配置的圖表盤,僅侷限於少許的警報,指定爲高安全性的警報。可預計的到,這樣的圖表盤將比一個完整的圖表盤會大大的減小告警噪音。

可是,這裏有三個關於告警過濾的問題不容忽視。首先,它在你的操做可視化上創造了一個盲點,這樣會使問題癌變,由於一般狀況下,低程度的告警是高程度告警的前提。例如,一個 CPU 負載事件可能很快就會演變成一個全面的故障。

經過忽視掉低程度的問題,你強迫本身進入一個只操做高程度告警的反應模式。此時你已經背離了告警監控的初衷了———接收告警的目的是在他們急劇上升以前就可以解決掉潛在的問題。然而,告警過濾常常是徹底相反地,由於低程度的事件會被積極的開除的,等到潛在的威脅已經影響到了用戶之後,風險報警纔會對團隊作出響應。

第二個問題是關於過濾自己的,過濾後圖錶盤上的信息會變動得很是的簡單且難以捉摸。以上面 MySQL 爲例,在你的高嚴重報表的儀表盤中,要了解到全部的頁面故障率是不現實的。所以,當你消除掉低內存的告警後,你的肩上依然有可能揹負着其他的有效告警。

最後也是最主要的問題,就是這種過濾的設定只能鎖定已知的問題。若是一個新的高風險事件出現,將會被過濾器無情的迴避忽視掉,從而沒法被歸類到既定的圖表盤中去查看與處理。

######告警關聯的必然性及應對措施

相比之下,告警關聯可使你很好的抵抗告警洪潮,也不會丟失問題的可見性。企業若是適應了告警關聯,信息告警的圖表盤上確實能減小不少壓力。

Onealert 中,咱們開發了一個基於雲端的分佈式現代化告警關聯性平臺,而且咱們還優化了與 Nagios 等一系列開源監控工具的集成。

Onealert 可以集成你的 Nagios 告警,它會用一個智能算法,來處理和關聯這些告警。整個 Onealert 圖表盤是一個基於雲端的應用服務,表明着全部 Nagios 告警,能夠有效地組合成高層次的事件。

######使用 Onealert 的好處有

  • 高效精準: Onealert 的算法可以減小你99%的告警負荷,同時保持高精度性。
  • 自定義配置:Onealert 容許你爲特定的告警事件配置自定義規則,避免遺漏。
  • **一站式關聯:**除了 Nagios,Onealert 在其餘監控工具中也能夠完美的結合,好比 Zabbix,監控寶,阿里雲等。

然而你也沒必要要徹底相信個人話,我們能夠嘗試着本身安裝下 Onealert,學習更簡單的生活,使你的工做也在無窮無盡的告警中變得更有意義。

相關文章
相關標籤/搜索