機器學習技術在監控工具中的應用已經成爲 IT 運維與 DevOps 團隊的一大熱點話題。儘管相關的使用案例不少,對 IT 團隊而已真正的「殺手級應用」是機器學習如何提升實時事件管理能力,從而幫助較大規模的企業提升服務質量。對此,關鍵在於在用戶發現問題以前提前探測異常,進而減小生產事故與中斷的負面影響。算法
那麼,在IT運維管理的環境下,機器學習究竟是什麼?架構
網上有很多關於機器學習的宏觀定義:對於某給定的任務T,在合理的性能度量方案P的前提下,某計算機程序能夠自主學習任務T的經驗E;隨着提供合適、優質、大量的經驗E,該程序對於任務T的性能逐步提升。更通俗的來說,即:隨着任務的不斷執行,經驗的積累會帶來計算機性能的提高。運維
若是在IT運維管理的前提下,也許這樣的定義更加準確:機器學習是分析數據,反覆地向數據學習,進而在不參考明確模型的狀況下,找出隱藏觀點的一類方法。機器學習
在 IT 運維管理的語境中,機器學習的首要替代方案是爲 IT 運維管理創建行爲模型,瞭解這一點很是重要。行爲模型方法要求瞭解基礎架構的全部組件,才能理解出現中斷或服務質量降低的可能緣由。更確切地說,你要試着判斷哪些事件和告警模式與你但願監控的條件相匹配。工具
事實上,大多數 IT 運維管理工具都屬於這一類別。不管是過期的遺留事件管理器,仍是使用「聚合及查詢」方法進行 IT 運維的現代工具。總之,你都要對這些工具進行必定的配置,讓它們留意你預先就知道須要搜尋的東西。性能
而另外一方面,機器學習則使用數據自己來尋找值得留意的特徵,這些特徵可能在事先徹底沒法預知。例如,非監督式機器學習,可用於分析事件流或日誌消息,從而找出異常的消息集羣。以後,這些異常能夠與某項運維結果相聯繫,從而捕獲潛在中斷的緣由與症狀。學習
然而,監督式機器學習可用於記錄用戶針對給定告警及告警集羣的活動,並相應地作出算法上的調整。本質上,機器學習利用數據不斷地建立並更新行爲模型,而不是使用靜態的行爲模型尋找特定的結果。人工智能
在 IT 數字化轉型的今天,隨之而來的規模複雜度、變動速度以及軟件抽象化等挑戰成爲了機器學習應用於 IT 運維管理的理由。日誌
若是基礎架構處於不斷變化的狀態,根本沒法創建起固定的行爲模型。若是你想了解來自應用與基礎架構的大量數據的意義,使用基於規則的方法無疑是死路一條。在新的軟件時代,你必須利用機器學習進行實時的數據分析,這是保證服務質量的必備條件。無能否認,IT 領域正變得愈加混雜、虛擬化以及流動化,只有使用機器學習技術,才能坦然應對這些變化。事件
現代 IT 環境下,不斷變化的基礎架構會產生大量的事件數據須要處理。在 OneAlert,機器學習主要用於「消除噪音」。例如,面對每秒鐘成千上萬的告警事件,如何在消除噪音的同時保留有價值的信息事件?
目前 OneAlert 產品對告警事件的壓縮率已經高達80%。基於時間片的告警信息壓縮已經趨於成熟,基於告警屬性類似度的聚類模型可以將告警壓縮率達到 95%。而基於機器學習的人工智能壓縮更是可以將告警壓縮到 99%(咱們敬請期待!)
OneAlert 是北京藍海訊通科技有限公司旗下產品,是國內首個 SaaS 模式的雲告警平臺,集成國內外主流監控/支撐系統,實現一個平臺上集中處理全部 IT 事件,提高 IT 可靠性。想了解更多信息,請訪問 OneAlert 官網 ,歡迎免費註冊體驗 。
本文轉自 OneAPM 官方博客