風雨以後是彩虹,經歷了三個月的風雨以後,從6月14日起(上次故障發生於6月13日)開始享受彩虹。。。而今天突襲而來的RDS故障讓咱們懂得了彩虹期間會有陣雨,但無論怎麼樣,離「晴空萬里」愈來愈近了。html
2013年7月23日10:00~11:00左右,咱們使用的阿里雲RDS(關係型數據庫服務)忽然出現故障,形成了網站不能訪問(你們訪問時遇到的502錯誤就是故障的表現)。由此給你們帶來了很大的麻煩,咱們深表歉意!望你們諒解!數據庫
此次502故障發生時,咱們先從服務器上的錯誤日誌下手,一會兒將故障的引起點逮個正着:服務器
System.Data.SqlClient.SqlException (0x80131904): 在從服務器接收結果時發生傳輸級錯誤。 (provider: TCP Provider, error: 0 - 遠程主機強迫關閉了一個現有的鏈接。)網絡
數據庫鏈接被強制關閉,那問題確定與RDS有關。ide
10:05聯繫阿里雲客戶經理,10:06提交工單。。。網站
接着,經過telnet至RDS的端口確認是否是網絡問題引發的,telnet正常鏈接,說明網絡沒問題,問題在RDS自己。阿里雲
接下來就是阿里雲的工程師在忙,咱們只能緊張而焦急地等待。。。日誌
11:00左右,RDS切換至鏡像節點(RDS作了數據庫鏡像)以後,網站當即恢復正常。htm
對於故障的真正緣由,阿里雲工程師接下來會進行全面的分析。多但願有一天阿里雲能像Amazon同樣,將每次故障的緣由及處理狀況對外公開。blog
就這樣經歷了一場雲上的陣雨,有人在微博上說咱們是阿里雲踩坑大師,咱們但願踩一個少一個,同時但願阿里雲找出全部的坑一個一個填平,只要有坑,總會被人踩着的。