簡介: 9月26日,阿里巴巴高級技術專家滕聖波在《GOPS全球運維大會》上發表了題爲《雲上服務器無人值守與自助服務實戰》的主題演講,本文根據滕聖波的演講整理。算法
雲原生時代下,企業的IT運維面臨架構複雜化、業務需求多樣化和運維數據海量化等挑戰,如何可以實現精準告警、異常智能診斷、根因定位、異常預測和異常自動修復,已成爲企業數字化轉型的急迫需求。服務器
9月26日,阿里巴巴高級技術專家滕聖波在《GOPS全球運維大會》上發表了題爲《雲上服務器無人值守與自助服務實戰》的主題演講,分享了阿里雲彈性計算團隊如何利用人工智能技術賦能運維自動化,實現雲上服務器無人值守,幫助用戶下降雲服務器實例管理的複雜性,來保障實例服務的穩定和高效運行。本文根據滕聖波的演講整理。網絡
圖:阿里巴巴高級技術專家滕聖波架構
本文內容架構:
一、雲上服務器爲何須要無人值守?
二、阿里雲無人值守的自服務實戰
三、無人值守背後的數據和AI運維
運維是一種服務,既包含基礎設施軟件服務、也包含人力服務,服務的對象是企業中使用基礎設施的業務團隊,而云計算IaaS是一種運維服務,服務的對象已發展爲使用雲服務的開發人員和運維團隊。隨着雲計算的普遍落地,大部分企業已經上雲,當前就有100萬多家用戶的業務運行在阿里雲平臺上,阿里雲平臺服務的用戶也愈來愈多。機器學習
隨着平臺用戶規模的擴大,咱們發現平臺用戶在ECS實例運維時廣泛面臨三個痛點:工具
(1)背景溝通成本高,爲何個人實例出問題了?
(2)人工處理須要較長的時間,爲何這個問題這麼久尚未解決?
(3)客戶操做不透明,問題看起來修復了,但是剛剛你作了什麼?性能
爲此,咱們須要重人力投入在客服人員上讓用戶的問題得以高效解決。爲了不用戶規模擴大帶來的客戶側運維成本的線性上升,咱們開始利用人工智能技術賦能用戶運維管理。在無人零售、無人駕駛成爲趨勢的時候,咱們認爲將來雲上服務器也將實現無人值守。學習
事實上,阿里雲彈性計算產品推出十年了,沉澱了衆多ECS實例運維管理經驗和異常「行爲」規律。因此依託機器學習的數據驅動,咱們經過異常「行爲」數據的分析,構建了一套雲上服務器的無人值守架構,並推出了一系列自助服務,實現了ECS實例的自診斷、自修復、自優化、自運維,幫助用戶下降ECS實例管理的複雜性,從而來保障實例服務的穩定和高效運行。優化
雲計算IaaS的運維工做能夠拆分爲服務側運維和客戶側運維,服務側運維是雲平臺的運維工做,一般對用戶不可見的,主要涉及基礎設施、基礎產品和上層管控三個層面,包括機房、物理設備的運維工做、資源虛擬化、資源調度、熱遷移等工做。隨着用戶規模的擴大,這些運維工做會愈來愈複雜。而用戶側運維工做,是對用戶本身可見的,主要是用戶對ECS實例的修改操做和自動化工做,包括擴容、重啓、監控、客服服務、工單反應、資源編排和運維編排等。
咱們構建的雲上服務器的無人值守架構,爲阿里雲平臺用戶提供了一系列的自助服務。廣義上看,阿里雲的自助服務囊括了ECS實例自己、實例生命週期管理、系統管理和自動化、市場和生態四個維度,以下圖。
圖:廣義上的自助服務
狹義上來講,阿里雲自助服務爲用戶實現了ECS實例的診斷、修復和推薦的功能。當天,阿里雲自助服務已提供實例診斷工具、實例優化推薦、自動修復工具、最佳模板推薦和ECS事件自動化等一系列自助服務工具,覆蓋了80% ECS常見問題,將問題解決的平均週期從幾小時縮短至分鐘級,整個過程無需客服人工參與,無隱私泄漏風險,作到了雲上服務器的無人值守。將來隨着AI+數據的不斷驅動,ECS實例的診斷和修復將會愈來愈精準。
ECS實例的智能診斷
根據平臺的數據統計,用戶在使用ECS實例時主要面臨四大類問題:
(1)實例沒法遠程訪問
(2)實例沒法啓動/中止
(3)實例性能異常
(4)磁盤擴容未生效
因此,在智能診斷的能力上,咱們覆蓋了ECS系統服務、磁盤健康服務、網絡健康服務和Guest OS系統配置等維度,用戶一鍵便可完成實例的智能健康診斷。
ECS實例的自動化修復
在智能診斷完成後,咱們還會爲用戶提供ECS實例自動化修復方案,在前者定位問題所在以後,自動化修復可以在1-3分鐘內解決問題,主要完成ECS系統服務修復、網絡問題修復和磁盤修復。
僅僅實現自動化修復是不夠的,咱們認爲自動化修復還應該是透明合規的。咱們經過運維編排服務OOS提供自動化引擎,經過雲助手命令提供GuestOS內的執行能力,運維編排服務OOS+雲助手命令共同幫助用戶完成自動化修復;同時,咱們開源了運維編排服務OOS+雲助手命令的代碼,作到一切修復邏輯對用戶可見;一切修復操做還能夠經過ECS實例的鏡像、快照和數據備份實現回滾;經過阿里雲RAM角色控制實現一切權限可控,經過阿里雲操做審計ActionTrail實現一切記錄可審計,作到了真正的透明合規。
讓咱們實現智能診斷和自動化修復的,是冰山下強大的技術支撐——AI+數據。依託底層的數據中臺,咱們完成了包括物理機數據、虛擬化數據、網絡數據、控制面數據和GuestOS內數據等數據的採集、清洗、分析和模型的構建;加上AI算法的不斷調優,咱們搭建了用戶畫像、決策樹、預測和推薦模型等,從而保證異常診斷和自動修復越加的精準和高效。
當前,在總體的ECS自助服務架構中,主要依靠管控監控中心實時監測日誌服務、中間件監控、API請求監控以及控制檯監控和自助診斷的數據,經過機器學習引擎實現問題預警和處理,進而驅動運維編排服務OOS實現自動化修復問題。
經過這套AI驅動的自服務架構,當前阿里雲ECS實時內存異常感知準確率在70%以上,實施預測鏈路延時則控制在100s之內;另外融合專家經驗、案例庫和知識庫,咱們構建了一個強大的診斷決策樹,爲加快問題的定位和修復提供了強有力的依據。
近兩年,阿里雲彈性計算團隊持續不斷地投入構建異常行爲數據集,將來計劃將其演進成爲阿里巴巴集團在異常預測上的「ImageNet 數據集」並進行開源,但願能爲異常預測在業內的發展貢獻更大的價值。