很是抱歉,今天凌晨 3:20~8:30 左右,咱們使用的阿里雲 RDS 實例 SQL Server 2016 標準版忽然出現 CPU 100% 故障,形成全站沒法正常訪問,由此給您帶來巨大的麻煩,請您諒解。數據庫
問題很奇怪,故障期間是數據庫服務器負載極低的時間段。從阿里雲 RDS 控制檯 CloudDBA 看,故障期間下面的一個 SQL 語句大量執行,而且極其消耗 CPU 。服務器
開始咱們覺得是這個 SQL 語句引起的故障,但排查下來這個 SQL 語句自己並無性能問題,並且已經使用了至少6個月。性能
最終恢復正常是經過 RDS 的2次主備切換,當發現故障後,咱們當即進行主備切換,但切換後 CPU 依然 100% ,而後咱們排查 SQL 語句的問題,排查未果,而後又進行一次主備切換,才恢復正常。fetch
過後分析後發現應該是第一次主備切換沒有成功完成,阿里雲 RDS 控制檯查看不到主備切換日誌,但2次切換,只有第2次收到郵件通知,由此能夠推斷。阿里雲
您的雲數據庫RDS實例:xxx(名稱:enable or disable task fetching while rds2slb transgfer.)任務觸發切換完畢,請檢查程序鏈接是否正常,建議設置自動重連機制以免切換影響。日誌
問題的緣由有待進一個分析,再次抱歉由此給您帶來的麻煩。blog