摘要: 阿里雲致力於提供更好用的運維體驗,讓您使用ECS的過程更透明、高效,並實現更加標準化、自動化的運維方式。基於主動運維2.0,您使用ECS雲服務器的體驗更加流暢,並且利用系統事件,再也不依賴於工單聯繫客服,能夠經過自助處理的方式響應主動運維實例重啓,減小對系統可靠性和業務連續性的影響。安全
雲服務器 ECS(Elastic Compute Service)是一種彈性可伸縮的計算服務,助您下降 IT 成本,提高運維效率,使您更專一於核心業務創新。當您基於ECS雲服務器搭建了業務系統,藉助雲計算的諸多優點和特性,能夠實現對業務需求的敏捷響應和對業務連續性的有力保障。在此基礎上,阿里雲致力於提供更好用的運維體驗,讓您使用ECS的過程更透明、高效,並實現更加標準化、自動化的運維方式。服務器
主動運維框架
阿里雲使用嚴格的IDC標準、服務器准入標準以及運維標準,保證雲計算整個基礎框架的高可用性、數據的可靠性以及雲服務器的高可用性。對於單臺ECS實例, 阿里雲承諾一個服務週期內單臺ECS實例的服務可用性不低於99.95%;對於單地域多可用區,阿里雲承諾一個服務週期內該單地域多可用區的服務可用性不低於99.99%。運維
咱們知道,在基礎設施層面,始終存在一些潛在因素如軟件bug或硬件故障等會影響ECS實例的運行,所以爲了保證上述高級別的服務可用性,除了雲計算基礎框架的高可用性設計之外,ECS主動運維不可或缺。主動運維做爲ECS的隱形衛士,會主動對承載ECS實例運行的物理服務器作平常維護和故障檢測,並儘量經過在線或輪轉升級的方式修復潛在的故障隱患,以持續提高系統可靠性、性能和安全防禦能力,保障雲服務器穩定運行。分佈式
但對於某些狀況,物理服務器須要重啓或停機維護,這時主動運維繫統會向該服務器上的ECS用戶發送消息通知,提示您的ECS實例須要重啓遷移至健康的物理服務器之上。此前,用戶接到這樣的通知後須要提交工單聯繫客服人員受權處理,隨着主動運維2.0的進化,這方面的體驗獲得多方面的提高。性能
體驗升級阿里雲
1. 主動運維熱遷移,實例運行不中斷雲計算
當主動運維檢測到物理服務器存在故障風險時,系統會優先嚐試將該服務器上的ECS實例在線熱遷移至其餘物理服務器,熱遷移成功的實例不會中斷運行,其業務能夠保持在線;只有少許熱遷移存在風險的實例纔會進入主動運維重啓遷移流程。此策略升級後,有效減小對用戶業務連續性的衝擊,在阿里雲用戶規模快速增加的狀況下,主動運維相關工單數量同比降低125倍!設計
2. 風險提示更清晰,遷移影響提早知blog
對於有必要進行重啓遷移的實例,阿里雲會提早向用戶發送消息通知和針對性的提示。因爲本地存儲(本地盤)來自單臺物理服務器,不基於多副本分佈式技術,在遷移時本地盤所存儲數據會被擦除,所以對於本地盤實例,通知中明確提示該風險並提醒您在遷移前及時備份數據。對於雲盤實例,通知中提供操做引導,您再也不須要提交工單聯繫客服人員,能夠直接在控制檯或經過API處理實例重啓遷移。
3. 不用工單找客服,系統事件來幫忙
雲盤實例重啓遷移的自助處理功能在控制檯和API上線,當您受到重啓遷移的系統計劃事件時,能夠知曉該事件的執行計劃。以下圖所示,根據您的業務須要,能夠選擇當即執行重啓、預定在業務低峯期執行重啓、或等待系統按計劃執行,作有準備的運維操做。這樣的過程再也不須要依賴工單處理,提升效率的同時減小實例重啓對您在行業務的衝擊。
事半功倍
正如上面提到的體驗改進,「事」半功倍,除了主動運維流程進化,還來源於系統事件的發佈。系統事件有利於提高用戶對於ECS運行狀態變化的感知,並進行有針對性的操做來響應或規避事件對在行業務的影響。經過系統事件的閉環,將更多的運維場景標準化、自動化,讓用戶得到更好的額雲上運維體驗。
閱讀更多幹貨好文,請關注掃描如下二維碼: