黑科技揭祕:百種異常隨機注入,專有云爲什麼穩如泰山

摘要: 關鍵應用服務中斷引起一系列連鎖反應,原由僅是一塊磁盤被寫滿?爲何這麼巧,兩個小几率的問題恰恰一塊兒發生,形成保護失效?爲何咱們作了測試演練,然而真正發生問題依然踩坑?」2018杭州雲棲大會主論壇演示現場,阿里雲專有云事業部兼企業應用事業部總經理馬勁一連發出讓技術人員感同身受的三連問。服務器

關鍵應用服務中斷引起一系列連鎖反應,原由僅是一塊磁盤被寫滿?爲何這麼巧,兩個小几率的問題恰恰一塊兒發生,形成保護失效?爲何咱們作了測試演練,然而真正發生問題依然踩坑?」2018杭州雲棲大會主論壇演示現場,阿里雲專有云事業部兼企業應用事業部總經理馬勁一連發出讓技術人員感同身受的三連問。網絡

百種異常現場隨機注入破壞系統負載均衡

圖片描述

繼去年跑了分、斷了電,在9月19日下午的杭州雲棲大會技術主論壇現場,專有云現場演示穩定性升級版,在現場搭建的專有云「企業號」數據中心繫統上隨機注入異常搞破壞。該數據中心由8大品牌服務器搭建,模擬了客戶真實的複雜生產環境,同時現場直播應用便搭載在該數據中心的系統上,在注入異常後將直觀的經過觀察直播是否卡頓來判斷專有云系統是否真的穩定。測試

圖片描述

現場馬勁讓助手向觀衆席中扔出兩隻猴子玩偶,搶到的觀衆能夠在現場呈現的1-100個異常中隨機選取一個異常注入,兩位觀衆分別選擇了19號和66號,分別表明的是「ECS雲產品網絡傳輸包亂序比例陡增」,模擬ECS網絡不穩定,網絡急速惡化,傳輸包亂序陡增的場景,以及「SLB雲產品網絡傳輸時延陡增」,模擬SLB所在網絡不穩定,傳輸出現嚴重惡化,時延陡增的場景。在分別注入這兩個異常場景後,直播視頻仍然保持順暢毫無卡頓。這是由於專有云系統平常就是在經過注入這類異常收集反饋進行調整,從而不斷打磨系統構建出「專有云免疫系統」。優化

彷佛是現場觀衆隨機挑選的異常「破壞力」不足,馬勁一狠心,演示了極端環境下的超級異常——核心ECS集羣局部網絡異常且另外一臺ECS計算資源飽和。「這模擬了業務高峯期服務器已經超高負載時的網絡故障,這類狀況極易引起系統雪崩,一旦雪崩恢復時間很長。」馬勁解釋道。演示現場阿里雲負載均衡的快速隔離及彈性伸縮服務智能資源分配及時發揮了做用,現場應用卻快速恢復正常,觀衆席響起熱烈的掌聲。阿里雲

圖片描述

打磨產品穩定性,阿里雲沒有好辦法只有「笨辦法」雲計算

阿里雲專有云承載着衆多企業的關鍵業務,深知肩責任之重,也深知穩定性對客戶業務意味着什麼,所以打磨穩定性是專有云不渝的追求。然而,過去大部分系統都搭建在DIY系統上,不具有全系統演練的條件,而今天在阿里雲這個「雲計算機」上,能夠在準生產環境下進行全方位立體化的演練。spa

混沌工程是專有云針對理論科學搭建系統同時利用實踐科學不斷打磨系統的最佳組合。阿里雲異常庫中擁有高達12600種的異常場景,一年365天都在全方位立體化的不斷注入打磨系統,以提早幫助客戶排除系統中80%的故障。當別人還困擾於硬件層級的異常發生該如何處理時,阿里雲專有云已經在用更深層級的組合異常打磨系統。這一切的投入和執着錘鍊穩定性都只爲持續給客戶提供更穩定更可靠的產品。code

現實每每不按照故事的劇本走,阿里雲沒有「好辦法」只有笨辦法,那就是引入‘混沌工程’理念,在仿真的生產環境中作千倍高頻的異常注入,對不符合預期的系統反饋不斷優化,從而持續打磨穩定性,助力客戶業務穩定性提高。視頻

瞭解更多產品降價信息請戳連接
https://yunqi.aliyun.com/2018...
瞭解更多阿里雲產品請戳連接
https://www.aliyun.com/produc...
專屬小遊戲,《我和老闆,那些不可描述的需求》等你來~
https://yq.aliyun.com/article...

相關文章
相關標籤/搜索