產品經理說|AIOps 讓告警管理變得更智能

AIOps 人工智能和IT運營支撐 Ops 之間的故事,愈演愈烈,已經成爲當今運維圈的熱門話題,我打算從2篇文檔分享咱們在 AIOps 上一些探索和實踐。(本篇)爲何事件(告警)處理須要 AIOps;(下篇)OneAlert事件處理平臺在 AIOps 方面的探索。html

1、 規模化

如今的企業 IT 規模,軟硬件都與以往有數十倍/上百倍遞增,如何管理 IT 可用性和高效性,成爲 IT 運營 DevOps 團隊重要職責。規模化帶來兩個顯著特色:一、更多的變動;二、更大的規模ios

企業的 IT 想跑的更快,就必須將工做給分解的更細,讓團隊可以以獨立小分隊做戰。因此敏捷 Agile、DevOps、雲和微服務大行其道。算法

爲了保障高可用和高性能,如今企業基本上會用多個不一樣的工具,例如 ZabbixNagios、Open-Falcon、Solarwinds、Prometheus、ELK 等以及雲平臺自帶的監控工具,實現網絡和基礎設施、應用和中間件等服務。這些系統天天會產生數以萬計的事件/告警,這些時間都須要去分析、優先級甄別、並執行預案操做。隨着時間的推移,多是數十萬、百萬事件須要關注。微信

2、 人力有限

研究證實,人類大腦在短期內(10-15秒),只能同時處理7-9件事情。這有點扯,習慣多線程工做的程序猿們,也就2-3個事情而已。因此工程師的生產效率實際上是可期的。相信若是採用敏捷模式的工做模式,最後統計人均工做量(如 Jira)的時候,基本上一個團隊/每一個人的輸出是必定量的。網絡

這裏就存在一個重要的矛盾:日益增加的 IT 運營須要,同落後的 IT 生產力之間的矛盾 :多線程

以事件管理(告警管理)爲例,咱們看看人工智能結合後,有什麼不一樣。事件管理是 IT 運營支撐過程當中最爲高頻的事情,也是最費時費力的事情。運維

大多企業都有相似於 NOC,服務檯或者是一線支持團隊,及時分析、甄別重要事件,第一時間處理,若是處理不了,通常會協同他人,或者派發工單。這些有一個前提,通常都是有一個集中的事件中心(告警平臺),例如 OneAlert。經過接口、郵箱等方式收集各種監控事件過來。機器學習

告警集中化便於集中處理事件的同時,也帶來了一些問題:常見的是告警疲勞(太多事件無感)和噪音過多(不知道什麼是重要的),重要事情淹沒在汪洋大海里面。 一線團隊識別重要問題的難度如大海撈針,因此大多人會作一個事情:禁用告警。只將須要處理的事件發送至告警平臺,這樣人爲控制的方式,可以有效甄別;但也有問題,會有可能忽略大量的預警信息,不能及時在故障前發現問題;可能會形成對業務服務和終端用戶的影響。分佈式

在進入AI模式前,有不少人包括 OneAlert 團隊都在尋找合適的解決方案,常見的是事件的去重、關聯、合併,儘量識別根源,爲此有些團隊花巨大精力構建 CMDB、並強化拓撲關聯等等,以及創建合併策略規則,目的只有一個,就是儘快甄別重要問題,以及識別根源,是否影響業務影響。然而事實證,大量的人爲干預和規則設定,大量的前置規則,都須要投入,而實際產出可能各異,最終效果不見的理想。特別是在規模化(雲化、分佈式和動態微服務)之後,維持準確的 CMDB 和拓撲關聯更加困難。微服務

3、 人工智能與 AIOps

在談 AIOps 前,咱們先了解下什麼是 AI。大數據發展、高性能硬件、更先進的算法三駕馬車推動下,人工智能迎來第三輪發展浪潮。利用人工智能高效實現海量數據的分析和挖掘;處理數百萬事件乃至千萬,基本都是秒級甚至毫秒級。經過監督學習(人干預)和非監督學習(不干預),很是適合去處理大數據事情,這一點每每是人力達不到的。

Gartner 在2016年預測2019年,有25%的全球企業將會使用 AIOps 技術或平臺去實現IT運營支撐,如今已經2018年,有理由相信下半年到明年 AIOps 的爆發。

 

產品經理說|AIOps 讓告警管理變得更智能 技術分享 第1張

 

從 Gartner 定義範疇來講,AIOps 是包括監控 Monitor、服務管理 Service Desk、自動化操做Automation,基於大數據和機器學習技術的持續優化過程。核心思路是經過海量數據的異常檢測和多維度關聯飛、加強或取代 ITOM 領域的三個重要能力:監控、服務管理和自動化,進一步幫助IT運維人員準確甄別系統異常、快速定位故障根因、並對潛在系統運行風險進行預警、實現IT和業務的持續洞察和改進。

國內很多一線互聯網企業已經在監控 Monitor 領域上作了很多嘗試,而也有很多專業廠商在這領域發力。咱們另一個產品 I2(Intelligence Insight)聚焦監控,更多詳細內容參見《AIOps 一場顛覆傳統運維的盛筵》www.aiops.com。

今天討論的其實重點是服務管理 ServiceDesk 的事件(告警)管理,實際上還有更多IT服務管理(ITSM)的人工智能化。我和團隊的OneAlert事件處理平臺,更多聚焦的是監控產生事件到人員處理響應這個過程,並且是一個高頻場景,苦活累活較多。

咱們對人工智能的指望是將數以萬計的事件,通過漏斗式過濾,剩下的都是金子,縮減爲數十個重要事情(不是單粒度事件),這樣一線就能夠保持更高的專一力和較高的工做效率。與傳統人工模式相比,指望人工智能算法能夠相對輕鬆的快速(秒級)處理事件,實現去重、關聯和甄別重要事件,並建立工單/通知提醒,實現知識重用。

工程師經過人工智能技術輔助,能夠更快更高效的處理重要事件,減小故障時間和業務中斷時間,從而提高 IT 系統的可靠性和高性能。因此 AIOps 是一個新的途徑,也是技術發展的必然選擇。

咱們指望事件(告警)處理能夠實現:

(1)自動減小告警數量和噪音,去蕪存菁。

(2)智能的關聯/聚類可以快速的識別問題,分門別類。

(3)快速識別根源。

(4)協做自動化,實現團隊溝通和協做。

(5)知識積累和自動複用,決策支持,越用越智能。

 

產品經理說|AIOps 讓告警管理變得更智能 技術分享 第2張

 

假設一個場景:

「某商城,網絡交換機的端口故障,引起了一系列應用主機故障閃斷(如 Zabbix Agent Ping),以及相關的商城和門戶業務系統不穩定。」

OneAlert 的 AIOps 方案預期效果:

(1) 將短期數百/數千事件,縮減至數類問題:網絡交換機、主機閃斷、應用商城不穩定和門戶不穩定。

(2) 其中網絡交換機端口故障和應用主機故障,須要重點關注,前者的根源機率爲80%。

(3)上個月該交換機曾經出現過相似問題,解決方案是什麼樣的,如xx流量過大,須要限流乾預。

(4) 自動通知相關基礎設施團隊、商城和門戶支持團隊。通知出問題,而不是某個業務系統100個進程閃斷的逐條詳細。

相比傳統的人工方式,事無鉅細的作法,人工智能的優點在於可以從大量的事件中提取關鍵重要信息,並甄別、識別優先級類型,並自動的實現人員協做通知,複用知識,實現決策支持,從而提高工做效率。

下一篇《OneAlert 事件處理平臺在 AIOps 方面的探索》將針對以上幾點,展開分享。

OneAPM 全新推出新一代 AIOps 平臺 I2,歡迎您隨時聯繫咱們,即刻開啓貴公司的智能運維之旅。點擊進入 AIOps 官網瞭解更多信息。

來源:http://blog.oneapm.com/apm-tech/822.html

相關文章
相關標籤/搜索