摘要: 阿里雲會針對ECS實例發佈系統事件,當您收到阿里雲計劃維護的通知時,能夠利用ECS系統計劃事件瞭解與實例相關的計劃維護操做,並根據您的業務特性選擇合適的時間安排運維操做進行故障轉移,減小對系統可靠性和業務連續性的影響。安全
阿里雲做爲領先和值得信賴的雲計算服務提供商,提供和保障計算、存儲、網絡資源以及底層基礎設施的可用性、穩定性、安全性。根據自身戰略發展和業務需求,您能夠設計高可用的雲上IT架構,在阿里雲上選擇合適的產品、服務來搭建部署業務系統,並管理其中的數據。在此基礎上,經過阿里雲提供的API、監控、編排等多樣化手段實現快速配置資源,搭建多套環境,自動化部署等IT運維能力。服務器
相較於普通的IDC機房以及服務器廠商,阿里雲會使用更嚴格的IDC標準、服務器准入標準以及運維標準,以保證雲計算整個基礎框架的高可用性、數據的可靠性以及雲服務器的高可用性。在此基礎之上,阿里雲在各地域提供多可用區服務,當您須要更高的可用性時,能夠利用阿里雲的多可用區搭建本身的主備服務或者雙活服務。對於金融等對業務連續性有更高要求的行業領域,還能夠經過多地域和多可用區搭建出更高的可用性服務,並實現更高的RTO、RPO數據保障能力。對於單臺ECS實例, 阿里雲承諾一個服務週期內單臺ECS實例的服務可用性不低於99.95%;對於單地域多可用區,阿里雲承諾一個服務週期內該單地域多可用區的服務可用性不低於99.99%。爲了保障高水平的服務可用性,阿里雲會主動對承載ECS實例運行的物理服務器作平常維護並修復潛在的軟硬件等系統故障,以持續提高系統可靠性、性能和安全防禦能力,並在探測到物理服務器存在故障隱患時在線熱遷移實例至健康的服務器之上,保持ECS實例的健康運行狀態。網絡
但做爲阿里雲的用戶,您仍有可能會收到這樣的消息通知,提醒您的ECS實例因爲所在物理服務器存在故障風險須要維護,阿里雲設定了一個實例重啓的系統計劃事件,將在2天后重啓該實例並遷移至安全的物理機運行。架構
您可能會疑惑,爲何還會受到這樣的信息呢?其實,這是由阿里雲平臺主動運維自動觸發的維護通知。在主動運維過程上,某些軟硬件故障會致使實例沒法在線遷移,這樣的狀況下,阿里雲會向用戶發送上述通知,提醒您系統即將經過重啓實例執行遷移操做。爲了提高您運維ECS實例的效率和體驗,阿里雲會發布ECS實例系統事件功能,當您接收到通知時,能夠在ECS控制檯或使用OpenAPI查看系統計劃事件,並根據業務的須要選擇合適的時間點執行系統事件(某些狀況下只能等待系統事件按計劃時間執行)。這樣便免去了經過工單聯繫客服人工介入的過程,減小風險的同時,也爲基於系統事件實現自動化故障轉移提供了基礎,讓運維更高效。負載均衡
那麼ECS實例會存在哪些類型的系統事件呢?阿里雲會優先發布系統主動運維觸發的實例重啓(Reboot)類型事件,隨後會給你們提供更豐富的事件類型來知足多種運維場景。若是存在系統計劃事件,ECS 控制檯待處理事件按鈕上會出現顯著標示提醒您查看。點擊該按鍵後進入 待處理事件 > 系統計劃事件 頁面,在這裏您能夠看到實例 ID、地域、運行狀態等實例相關信息,計劃執行的系統事件相關信息,推薦的用戶操做和可執行操做按鍵。您也能夠經過調用OpenAPI DescribeInstanceFullStatus手動查詢或自動輪詢實例的系統計劃事件。框架
能夠想象,當ECS實例承載關鍵業務時,任何非預期的實例重啓都有可能對系統可用性和業務連續性形成威脅或嚴重影響,所以咱們建議您在搭建應用系統時能充分利用可用區、負載均衡等功能和服務來提高架構和服務的總體可用性。在此基礎上,對於阿里雲主動修復系統故障觸發的系統事件,一般系統會提早48小時給您發送通知,所以您能夠利用事件計劃時間以前的這段用戶操做窗口期,作有準備的負載和故障轉移操做並重啓實例,好比,在集羣環境中及時將負載從有計劃事件的實例上轉移到其餘實例,或提早備份、轉移本地磁盤的數據,或主動調整負載均衡和彈性伸縮的配置,以及基於業務邏輯作有順序的啓停實例等主動運維操做,最大限度地下降實例重啓對業務連續性的衝擊。運維
ECS系統事件的類型和場景會不斷完善和擴展,咱們但願經過這樣的方式,逐步提高您在阿里雲上的運維效率和體驗,提供更完備的接口和服務來支持用戶在阿里雲上實現無憂運維和業務永續。性能
原文連接阿里雲
閱讀更多幹貨好文,請關注掃描如下二維碼:雲計算