時間:18.11.22 sql
公司最近因業務,有大量註冊,天天大約幾萬,貌似也不過高?數據庫
晚上8點左右,網站後臺,前臺忽然大面積提示502.網站幾乎癱瘓。買的阿里雲的負載均衡和讀寫分離。分別是5臺服務器和1主2從。服務器
查了一下阿里雲及服務器各項負載狀況。發現其中一臺只讀數據庫cpu高達98%。主實例正常。另外一臺只讀cpu20%。其餘均正常。負載均衡
二. 解決:優化
發現是隻讀DB的問題,但實際上主實例和另外一臺db都沒問題,不應直接網站都癱瘓啊。網站
沒辦法,只能把高cpu的DB重啓,重啓後發現另外一臺又高了。沒辦法。只能臨時把網站鏈接地址改回主實例的地址。網站恢復正常。阿里雲
三. 後續:spa
次日找了阿里工單提問,只說因部分sql較慢,致使的cpu太高。但貌似這解釋不是很合理。又查了下QPS,TPS但都不高,最高一百多。blog
主實例和兩臺只讀負載狀況。後臺
目前優化了sql,觀察看看是否還會出現問題。