本文篇幅較長,分爲上,中,下,三個部分進行連載。內容分別爲: AIOps 背景/所應具有技術能力分析(上), AIOps 常見的誤解(中),挑戰及建議(下)。前言html
我大概是 5,6 年前開始接觸 ITOA 這個領域的,首次接觸後,發現領域有着巨大的潛力,一直尋找在這個領域作點事情的機會。大約三年前在這個領域創業,積極尋求 Product Market Fit。這幾年下來,通過與行業內的專家交流,研讀報告,閱讀論文,客戶訪談,親自動手對相應的運維場景解析,行業產品的試用調研,以及結合着中國運維市場現狀,撰寫了此文。本人才疏學淺,不學無術,歡迎拍磚。算法
如下是其中一例,當用戶指望超越當前技術水平的一個典型的例子,車毀人亡。數據庫
美國加州灣區高速上的一塊兒致命車禍,。一輛價值$79,500的 Tesla Model X,在行駛至山景城段101和85高速交界時,忽然撞上隔離帶,隨後爆炸起火。安全
對此,遇難華裔司機的遺孀 Sevonne Huang(下文簡稱Sevonne)首次公開發聲透露,丈夫生前曾抱怨過,特斯拉的自動導航儀,好幾回讓車子開向衝上防撞欄。Sevonne 說,將起訴特斯拉。網絡
自動駕駛的安全性問題,再次把特斯拉推到風口浪尖上。然而過後,雖然特斯拉發聲明稱,抱歉發生這樣的悲劇,但同時也將責任指向了死者,「車輛再三發出警告,提醒司機操控車子,但事發前,司機並無把手放在方向盤上。自動駕駛儀並不能避免任何事故。」框架
司機對於特斯拉的 AutoPilot 過分相信,最終致使了悲劇了發生。運維
雖然目前的智能運維,所形成的結果可能不會那麼嚴重,可是按照Gartner 技術成熟度曲線來看,AIOps 還處於很是初期的階段(左下角),超越現階段的指望,是 AIOps 最大的風險。工具
中國的企業用戶每每有大而全的建設方案,如何從企業的實際狀況出發,制定節奏合適的規劃,我認爲是一個很大的挑戰。性能
從目前來看,你們指望利用算法解決的場景包括:大數據
以上的每一個智能場景,每一個場景所須要用到的算法都不同,並且成熟度差別較大。
以最爲簡單,但應用最爲普遍,成熟度最高的單指標異常檢測來舉例,從學術的角度來看,若是你到 Google 裏去搜索,你會發現有大約 60000 多條的記錄,時間跨度從上世紀 90 年代到幾天前的都會有。
從商業化的角度來看,目前從我看到的,比較成熟的也只有 Elastic 公司所收購的 Prelert 的異常檢測技術,是產品化的比較好的,普通的用戶是容易理解,容易使用的。
這已是 30 年來,集合了那麼多頂尖的智慧,所能達到的產品化程度最高,通用性最強的場景了。其餘的場景,成熟度,或者通用性確定是不如本場景。
例如故障預測,目前比較好的案例是預測硬盤故障,前提是你擁有大量一樣型號,相同批次的硬盤,其中某一些硬盤出故障了,從 S.M.A.R.T 信息中,你纔可以得到訓練集,而後利用模型去預測同一個批次的故障。這種前置條件,一般只會在特定的用戶,例如騰訊,百度的數據中心,一次性購置上千塊的,才能出現1到15塊的故障硬盤 (據統計,硬盤的故障率在0.1%~1.5% 左右),並且就算有用戶根據硬盤的狀況,訓練好的模型由於每一個用戶的機房,電壓,溫度都不同,極可能沒有辦法進行復現,所以,此場景通用性極差。
若是要將用於預測硬盤故障的算法,用到某一個 IT 業務系統之上故障上,基本上也是不可能的,由於一個系統,相應的參數,變量,可能影響系統平穩運行因子太多,已是沒有辦法套用到預測硬盤故障的算法裏頭來了。
還有,部分的算法,在實驗室中的效果很是好,準確率和召回率都很高,可是,消耗資源巨大,實時性差,沒有辦法投入真正的生產使用的可能性。
所以,在算法上,咱們應該先去落地成熟,ROI 顯著的場景。
在無人駕駛技術領域,最核心的一個組件是 LiDar(激光雷達),一種運用雷達原理,採用光和激光做爲主要傳感器的汽車視覺系統,LiDAR 傳感器賦予了自動駕駛汽車可以看到周邊環境的「雙眼」。
世界上,幾乎全部的汽車廠商( Tesla 除外,Tesla 用的是經過攝像頭而實現視覺識別技術,因此我我的高度懷疑特斯拉的事故與此有關)在研發無人駕駛技術的時候,都會給車輛安裝上激光雷達。
而類比到運維的場景,若是眼睛不夠,數據不足,事情看不清楚,實際上是很難作到明確的決策的,具體表現以下:
缺少足夠的數據源: 有的客戶,沒有日誌管理系統,也沒有任何業務監控的手段,只有 CPU 內存,硬盤等基礎監控,這個時候,其實我我的上是不建議在現階段作 AIOps 的;
整個 AIOps 平臺最核心數據平臺的部分,是要知足如下的需求:
以上的描述,都是 AIOps 的數據能力要求,每每須要多個大數據處理,存儲組件,才能知足這種苛刻的要求,並且還須要無縫的整合起來,相應的工程技術難度很是大。
目前在國內,不管是算法人才,仍是大數據人才,都是比較匱乏的及昂貴的,在人才招募,項目預算制定的時候,要充分考慮相關因素。
從人才的意願來看,大部分的算法工程師及大數據工程師,更願意去參與一些離變現比較容易的場景,如推薦系統,視覺識別系統等,如何吸引更多的人才,特別是算法科學家等,讓他們感興趣,加入到 AIOps 的場景中來,也同時得到較好的經濟回報,是整個業界須要考慮的地方。
AIOps 的確是一個很是革命性的概念框架,它從大數據和 AI 的能力視角,去顛覆或者完善如今的 ITOM 運維體系,給學術界,工業界,最終用戶,指明瞭一個明確,可持續高速發展5-10年的發展方向。能夠預計,在將來 5-10 年內,大量關於 AIOps 的新思想,新理論,新技術,將會像寒武紀生命大爆炸時,不斷的涌現,創新源源不斷,做爲業界工做者,做爲企業,做爲廠商,如何在此次的週期中抓住屬於本身的機會,這是一個很值得思考的命題。
AIOps 讓運維部門一下成了公司層面擁有數據最多的部門,運維人如何自身進化,從運維到運營,對大部分運維人來講,都是一個巨大的機會及挑戰。
雖然 AIOps 的確給咱們帶來不少的想象空間,可是咱們仍是要以實際落地,實際幫助企業產生效率爲導向,要避免跳入 AI 過熱的炒做風,一步一腳印,直面挑戰,持續演進,不斷吸取世界先進的經驗及思想,從而迎接將來這10年的黃金時代。
OneAPM 全新推出新一代 AIOps 平臺 I2,歡迎您隨時聯繫咱們,即刻開啓貴公司的智能運維之旅。點擊進入 AIOps 官網瞭解更多信息。