基於機器學習的智能運維AIOps建設,下一步可以做什麼?

智能運維建設現在已經在各行各業的新一代運維建設中提上了日程安排,擎創科技作爲國內首家專注於智能運維的解決方案提供方,針對百餘家不同行業的企業運維管理者做了相關調研(其中部分數據來源於雙態IT聯盟的調研成果),就智能運維的展開路徑情況做了細部徵詢,得出瞭如下分析結論。
在這裏插入圖片描述
按照企業規模和既有運維成熟度來看,企業規模越大,運維成熟度越高的,越傾向於運維大數據平臺(或者運維數據中臺)的能力建設,均認爲運維數據的治理能力和質量提升是智能運維的關鍵基礎,所以先從這個步驟入手是最理性的選擇。其中部分企業做了指標智能化管理的一些試點,取得了一些成績,但同時也發現單獨依靠指標異常檢測去完成故障傳播鏈分析和根因定位效果很難實現,於是開始考慮多樣化數據融合的智能化場景。

相對規模小的,既有運維成熟度不是很高的,則傾向於場景化建設,針對告警繁雜處理不過來的,在告警抑制、告警智能化管理方面進行建設;針對監控誤報漏報率高的,納入指標異常檢測替代固定閥值;希望從日誌數據中直接發現異常,但又不想過多通過寫SPL或者各類依賴正則的方式製作解析規則的,選擇基於日誌聚類的算法做實時異常檢測。

根據這些實際狀況的調研,再結合擎創數十家企業智能運維落地建設的經驗,我們梳理出智能運維建設的三大原則和六步走路線。
在這裏插入圖片描述

1、從自身運維基礎出發

不要被一堆美輪美奐的場景迷惑,異常檢測、根因定位、故障自愈、知識圖譜,不論哪一種智能運維場景都離不開自身的數據條件和運維基礎,從自身出發最重要。

2、夯實運維數據處理能力

自身能夠有資源建設和維護一支高素養運維開發團隊,首選考慮運維數據中臺能力建設,先把數據能力夯實,再選擇性看待一些智能化場景的落地。

3、循序漸進的場景化建設

自身運維管理資源不足,只有若干運維開發人員,甚至多數爲兼職的,優先考慮場景化建設,圍繞存在不足和挑戰的既有運維場景逐步做智能化改造,在改造中注意要循序漸進,不可貪多求全。 那麼,有了智能運維AIOps的建設思路,想要落到實處,從哪裏着手爲好?企業的IT智能運維建設,應根據自身的情況,擎創建議可以按六步走。

**六步走路線,前三步側重在實時性數據處理能力的提升,後三步側重在事後分析和處理能力的提升,智能運維的本質是提升運維數據的洞察和處理能力。**實際上在建設中,無論是大規模的成熟企業還是中小規模企業,都可以沿着這條路徑逐步完成運維數字化和智能化的進程。
在這裏插入圖片描述

01集中監控智能化改造

通過告警精細化管理和分析提升告警處理的能力,鬆綁人員壓力。先通過集中積累歷史告警數據,釐清告警的不同類別,分析清楚哪些告警存在不合理情況以及故障發生時告警出現的規律(故障場景識別),從而爲下一步溯源確定依據,同時利用智能分析手段實時甄別告警中真正需要干預的部分,提高第一時間發現問題的能力(告警的有效性)和運維人員效能。

02指標監控智能化改造

在搞清楚現有告警有效性問題後,再看無效告警(誤報)的源頭都從哪裏來,漏掉的告警是缺乏監控手段還是監控方式有問題,這時再展開來看具體發生告警的相關指標監控如何改造,引入合適的智能異常檢測手段來抑制誤報漏報,提高監控能力,同時可以考慮引入容量類指標的預測手段,起到容量預警效果。

03日誌實時智能異常檢測彌補監控手段不足

許多漏報不一定能從指標監控改造中獲取,就需要加強對日誌的利用,這時可以將日誌實時異常檢測作爲一種監控手段補充納入建設路徑,日誌模式的異常告警也可以豐富故障發生場景的甄別,爲預測性發現故障提供依據。

04智能故障綜合排查—根因分析和定位

前三步基本肅清了發現問題的挑戰後,再考慮分析問題的範疇,每一種單一的數據源(告警、指標、日誌)都可以做一部分根因分析的工作,但真正的定位必須利用多樣化數據源纔能有真正的效果。在這個範疇裏,引入CMDB數據源用於輔助定位、結合工單語義分析也是一種方式。但最重要的是分析的過程應該被記錄,正確的探索模式是寶貴的經驗,應該被沉澱和分享,爲及時乃至預測性發現問題提供養料。

05智能知識管理—知識圖譜

傳統的CMDB表達的是對象和對象之間的關係,運維知識圖譜是一種延伸,不僅包括對象和對象之間的關係,更推演到對象所產生的數據和數據之間的關係以及解決問題的數據探索路徑,比如從告警觸發後的一連串排障分析動作,具體分析哪些指標,如何看待指標之間的擬合度對業務問題的影響,總之知識圖譜應該是在前四步取得成績的基礎上逐漸積累發展的,不適合一開始以此爲目標進行建設。

06故障自愈

故障自愈放在第六步,不是說一定要最後建設,這取決於在前四步過程中是否有些故障場景的根因已經有極爲明確的定位,並且其修復也有明確的步驟可循,這時可以引入自動化機制推動故障自愈的流程,比如有些業務問題確定和磁盤空間滿有關,清空即可解決,那麼自愈就可以作爲內置的自動化流程,但這裏要特別注意問題的相關性影響分析,從而可以確保自愈動作對其他業務不造成負面影響。

如果想與擎創交流智能運維AIOps的建設,深入瞭解三大原則和六步走路線圖,5月27日晚8點的直播不容錯過哦,本期主要講六步走路線第一步——監控智能化改造。掃碼預約參加,人數有限,趕緊動起來~
在這裏插入圖片描述