github 故障公告連接:https://github.com/cnblogs/coder-service/issues/106html
後續故障公告:升級阿里雲 RDS SQL Server 實例故障通過git
很是很是抱歉,今晚 19:34 ~ 21:16 園子所使用的阿里雲 RDS 數據庫服務器忽然出現 CPU 100% 問題,形成全站沒法正常訪問,由此您帶來了很大的麻煩,請您諒解。github
故障通過是這樣的。19:34 這個時間點原本是一個訪問低峯,數據庫壓力比訪問高峯時低不少,但數據庫服務器卻異想天開、吃飽了撐着地讓本身的 CPU 滿負荷工做(到如今咱們都沒想通,難道是服務器晚飯吃多了想幫助消化?)。開始咱們覺得是某個應用引發的,一個一個應用排查與重啓, 但 CPU 不爲所動,依然百分百。接着,咱們一邊向阿里雲提交工單求助,一邊經過阿里雲 RDS 控制檯進行主備切換,雖然控制檯顯示切換成功後,但「實例可用性」中主備庫信息無任何變化,實際主備庫切換並無成功,絕招也失靈。請阿里雲幫忙手動進行主備切換,但阿里雲操做後反饋因爲數據庫訪問壓力大,手動也切換不過去,建議咱們重啓實例。最終,咱們決定重啓實例,重啓實例後一切恢復正常。是的,就是用最笨的方法——重啓——解決了問題,在故障期間咱們採起的全部措施都是徒勞,讓人啼笑皆非。數據庫
望着今晚被暴風驟雨突襲後一片狼藉的園子,心中說不出的難受和愧疚。真的很抱歉,咱們一直在努力建設園子,但今天的故障又告訴咱們,沒那麼容易,咱們的努力還不夠,咱們別無選擇,惟有更加努力。服務器
【更新】阿里雲
00:22 開始將阿里雲 RDS 實例從 SQL Server 2008 R2 升級至 20163d
6:20 數據庫升級完成code
升級後大量數據庫查詢超時,正在緊急處理中。htm
9:20 升級後大量 SQL 須要編譯,RDS 實例的 CPU 一直居高不下,因爲阿里雲 RDS 控制檯中數據庫實例一直處於「主備庫切換中」狀態中,即便想升級 CPU ,如今也沒法進行。blog
9:50 從早上 8:50 開始阿里雲 DBA 就開始重建備庫,「主備庫切換中」狀態要等備庫重建完成才能解除,升級服務器配置也要等備庫重建完成。
10:29 備庫重建完成,「主備庫切換中」狀態解除。
10:50 準備升級 RDS 配置,但阿里雲升級配置頁面的計價出現問題,即便配置保持不變,也要1萬多元的費用。
11:05 進行了主備切換。
11:10 主備切換完成後,目前恢復了正常。