10月20日,騰訊織雲Metis 智能運維學件平臺在OSCAR開源先鋒日上宣佈,正式對外開源。Metis 是AIOps(Algorithmic IT Operations),即智能運維領域的首個開源產品。智能運維主張經過算法從海量運維數據中學習摸索規則,逐步下降對人指定規則的依賴,進而減小人爲失誤。ios
OSCAR 開源先鋒日由中國信息通訊研究院主辦,中國信通院雲大所所長何寶宏,中國信通院雲大所云計算部副主任慄蔚,騰訊雲副總裁趙建春,騰訊雲運營部總經理肖世廣共同參與Metis開源發佈儀式。 (騰訊織雲「Metis」開源項目正式發佈)算法
騰訊雲副總裁趙建春表示:「人工智能與運維的結合有了AIOps的新概念,如何在智能運維領域尋求到新的突破,從傳統 API 轉向運維學件,將騰訊海量數量訓練出來的模型貢獻開源社區和業內,我想這就是織雲Metis 智能運維學件開源的意義,和你們共建 AI 運維場景,讓人工智能和運維緊密結合。」 (騰訊雲副總裁趙建春)數據庫
在「騰訊織雲Metis 智能運維學件平臺」這一命名中,「學件」的概念由南京大學周志華教授提出。學件 = 模型 + 規約,具備可重用、可演進、可瞭解的特性。在此基礎上,騰訊雲副總裁趙建春先生進一步提出「運維學件」的概念,亦稱 AI 運維組件,強調其具有對運維場景智能化解決方案的記憶能力。網絡
「織雲」指的是騰訊智能一體化運維平臺,而「Metis」取名自希臘神話中的智慧女神墨提斯。隨着互聯網業務的急劇膨脹和服務類型的多樣化發展,人爲指定規則的不足之處逐漸凸顯,促使近兩年來智能運維領域的高速發展。織雲Metis是聚焦在智能運維的應用實踐集合,旨在經過一系列基於機器學習的算法,對運維數據進行分析、決策,從而實現自動化運維的更高階段。負載均衡
因爲社交類業務種類豐富、規模龐大的特色,騰訊搭建了充足的IT基礎設施,爲實現多維度、深層次地運維公司各種業務在發展交互過程當中產生的海量運維數據,Metis應運而生。運維
現在,Metis在運維質量、效率、成本三個方面都落地了衆多智能運維實踐,逐步構建出成熟的智能化運維場景,具體表現爲質量保障、效率提高、成本管理、智能檢測、通用模型和規則學習6個方面。機器學習
質量保障: 利用機器學習技術,進行異常檢測、故障定位、瓶頸分析等,可在無人工干預下,智能地保障業務穩定運行。如無閾值智能監控、DLP生死指標監控、多維根因分析。學習
效率提高:基於天然語言處理、機器學習技術,進行智能問答、智能變動、智能決策,可顯著提高運維效率。如Metis的智能諮詢機器人、輿情監控、集羣智能負載均衡、數據庫參數調優、容量預測。測試
成本管理:基於大數據智能分析技術,進行資源(設備、帶寬、存儲)管理,可迅速分析資源使用的明細,並經過橫向大數據對比識別可優化點。如硬盤生命週期預測。本次Metis率先開源的無閾值智能監控學件,是從無監督+有監督學習的角度來解決時序數據的智能檢測問題。大數據
智能檢測:運維人員不須要再去設置監控閾值,模型可以對異常狀況作智能判決,直觀告知檢測結果是正常仍是異常。一般而言,閾值的監控包含最值、同比、環比等維度設置,此檢測方案在檢測初期效果較好,可是隨着業務發展和規模壯大,就會須要付出較高的人力成本去維護合適的閾值範圍,對於大規模發展性業務得不償失。智能檢測的方案是基於統計判決、無監督和有監督學習對時序數據進行聯合檢測,經過統計判決、無監督算法進行首層判決,輸出疑似異常,其次進行有監督模型判決,獲得最終檢測結果。這個過程就摒棄了閾值方式帶來的問題。
通用模型:智能檢測的模型由騰訊織雲多元化的海量業務樣本訓練而成,比較適合複用在互聯網行業的時間序列檢測中。有監督的檢測效果取決於標註樣本的準確性和種類豐富性,經過樣本庫管理功能積累了大量的正負樣本、分爲測試集和訓練集,通用模型是通過海量訓練集的樣本數據訓練而來,涵蓋較全面的樣本分類。能夠幫助一些用戶避免掉缺少訓練數據所帶來的難點,用戶可直接加載通用模型進行檢測。
規則學習:實踐過程當中也會遇到較個性的業務場景,千人千面,不一樣的用戶對異常的判斷標準也不盡一致,所以支持標註反饋功能,用戶可根據標註信息進行訓練,生成新的檢測模型,進而掌握新的業務規則。
Metis無閾值智能監控學件在騰訊內部已承載了超過240萬個業務指標的異常檢測,它通過海量監控數據的打磨,在異常檢測和運維監控領域具備普遍的應用性,可取代傳統的閾值檢測方式,達到智能檢測時序數據的異常,還能結合業務策略對異常數據進行告警推送。
秉承騰訊開源的理念,Metis將打造一個開放的學件平臺,陸續開源時間序列指標預測、主機異常智能分析、MySQL異常智能分析、硬盤生命週期預測等其它智能運維學件,集合廣大用戶在智能運維領域的建設經驗和實踐,豐富完善針對質量、效率、成本三個方面的AI學件,搭建完備的運維場景,並將在將來兼容其它監控領域的開源產品,如Zabbix、Nagios、Open-Falcon等。
近年來,騰訊在開源社區愈加活躍,自2010年起,騰訊對內採起「開放、共享、協力開發」的研發模式;對外實現自主開源,並積極參與社區工做,相繼加入Hyperledger、LF Networking和開放網絡基金會,成爲LF深度學習基金會首要創始成員及Linux基金會白金會員。本次Metis開源,於騰訊,是其開放戰略在技術領域的又一實踐;於行業,則將填補智能運維領域的開源空白,並匯聚衆力,促進運維技術的突破與發展。