阿里巴巴榮獲年度最佳BCM創新實踐獎

2017年9月,阿里巴巴在國際災難恢復協會(DRI International)亞洲年度大會上斬獲大獎,來自阿里基礎設施事業羣的全球運行指揮中心(GOC)團隊得到「年度最佳BCM創新實踐獎」(BCM:Business Continuity Management業務連續性管理)。國際災難恢復協會(DRI International)亞洲大會是 DRII 在亞洲地區部分國家巡迴舉辦的業務連續性管理年度盛會,宗旨是爲亞洲地區的業務連續性管理專業人士提供一個 BCM交流技術、分享經驗的平臺。學習

全面保障業務連續運行優化

阿里經濟體業務體量巨大,生態複雜,如何在業務高速增加的同時保證業務穩定連續的運行,對整個阿里都是一巨大挑戰。通過多年的積累,阿里沉澱出一整套從故障預防、檢測、定位、快速恢復到覆盤演練的完整解決方案,並不斷優化提高。正是這套解決方案,實現了防止能預見的問題,快速恢復不能預防的問題,再也不重複已發生的問題,保證阿里的客戶可以擁有流暢的服務體驗。ui


image
圖爲阿里巴基礎設施事業羣全球運行指揮中心(GOC)負責人沈乘黃分享《阿里經濟體業務連續性解決方案》

業界領先,斬獲殊榮阿里雲

集團的技術人集體爲阿里業務連續性付出了巨大而卓有成效的努力,你們在業務連續性建設的探索中遇到的問題以及解決辦法,對每種技術深刻研究過程當中積累的經驗,基於對技術深刻理解的基礎之上進行調優和定製的實踐成爲了最寶貴的財富。來自阿里經濟體這一整套業界領先的業務連續性解決方案,保證了業務可用性長期穩定在99.99%。這一成果得到了DRII的一致承認,並最終斬獲「年度最佳BCM創新實踐獎」。blog


image


阿里穩定運行背後的保障團隊生命週期

來自基礎設施事業羣的全球運行指揮中心(Global Operations Center,GOC)是默默保障阿里經濟體業務穩定運行的表明,肩負着生產系統全局性應急決策與指揮的職責。該組織經過爲電商、金融、阿里雲等各項業務提供及時準確的告警、生產環境故障的全生命週期管理、重大故障時的快速切換以及線上問題的升級支持,在縮短系統災難時長和提高消費者體驗等方面作出了顯著的貢獻。開發

一直以來,GOC從預防、快速恢復到覆盤檢驗等環節全面推動阿里經濟體內業務連續性建設。get

首先,GOC持續推進系統的容災和快速恢復的建設,確保各個機房都有同城或者異地容災的方案,並經過平常演練來檢驗集羣的容災能力。同時,經由與各個業務部門的密切合做,GOC把各核心系統在極端狀況下快速逃生的開關接入統一的平臺,真正實現了快速恢復。其次,在業務流量發生波動時,經過自建的嵌入深度學習模型的智能基線系統,GOC能第一時間發現故障並判斷處理方式。若是該故障須要人工介入,則會迅速通知相關開發人員上線處理,並實時跟蹤進展。在故障處理完畢後,GOC會與業務團隊一塊兒進行深度覆盤,制定明確的改進措施,並經過模擬故障來檢驗系統是否已經具有了對相似的問題的免疫能力。經過這一完整的業務連續性體系,阿里的生產系統真正地實現了在災難發生時五分鐘發現、十分鐘恢復。深度學習

通過長期的技術積累,今天的GOC已經擁有了從故障管理平臺(OPM)、應急響應平臺(OER)、容災演練平臺(ODE)、變動管理平臺(OCM)到運行分析平臺(ODA)的完整的業務連續性系統,打造出了一整套業界領先的業務連續性建設解決方案。他們秉持着技術驅動的信念,以自動化和智能化爲抓手,爲了「無人值守的生產系統」的目標而銳意創新!it

隨着中國近年經濟的高速發展,中國企業在亞洲乃至全世界的影響力也在迅速擴大。今年又恰逢一帶一路峯會的召開,中國企業在迎來寶貴發展良機的同時,也將面臨新的挑戰。業務連續性管理做爲企業發展保駕護航的重要手段勢必獲得更高的重視和更普遍的應用。今年 DRI 不失時機地選擇再次在北京召開業務連續性管理亞洲盛會,旨在爲中國各行各業的業務連續性管理專業人士提供一個借鑑國際成功經驗、交流中國實踐的機會,研究適合中國國情的有效的業務連續性管理方法,開拓業務連續性管理及災難恢復應用市場的平臺。

閱讀原文http://click.aliyun.com/m/31982/

相關文章
相關標籤/搜索