清真雲 2020年3月13日-2020年3月14日 故障報告

 

您能夠到這裏下載報告的完整版本redis

 

https://files.cnblogs.com/files/6pan/%E6%B8%85%E7%9C%9F%E4%BA%91%E6%95%85%E9%9A%9C%E6%8A%A5%E5%91%8A-20200314.pdf.zip數據庫

 

 

清真雲 線上系統故障報告表服務器


故障概況 故障發生時間 2020/03/13 14:38:00 故障記錄時間 2020/03/14 13:56
故障概要 多系統超時、報告 INTERNAL_ERROR
影響範圍 嚴重程度 高 緊急程度 緊急
範圍說明 全部應用
(風險問題)
故障緣由描述 故障反饋來源 QQ羣 反饋人 -
 
1、 故障現象
1. 清真雲全部端、均沒法正常打開請求超時後返回服務器錯誤
2、 故障緣由分析
故障梳理:
1. 2020/03/13 19:30:00 收到離線打開異常反饋
2. 2020/03/13 20:18:30初步懷疑離線微服務異常,嘗試重啓服務,沒有解決
3. 2020/03/13 20:19:30離線服務大量報告 沒法鏈接redis數據庫

4. 2020/03/13 20:20:00 檢查物理服務器鏈接數,僅500左右

5. 2020/03/13 20:35:00 發現DNS有故障,分析後認爲不影響本次故障
6. 2020/03/13 21:03:00 redis服務正常

7. 2020/03/13 21:07:48 重啓離線微服務,業務開始恢復
8. 2020/03/13 17:55:00 發現同一namespace下 多出 istio-proxy 微服務,且多個微服務配置不正常
9. 2020/03/13 21:14:00 離線微服務再次自動重啓
10. 2020/03/13 21:19:00 排查請求,發現故障時間段請求數飆升


11. 2020/03/13 21:22:00 觀察發現redis鏈接數上漲迅速,懷疑本地鏈接數被流量壓垮

12. 2020/03/13 21:26:00 手動增長離線微服務實例,開始恢復
13. 2020/03/13 21:38:00離線微服務開始穩定再也不自動重啓
14. 2020/03/13 21:40:00排查代碼死循環,無收穫
15. 2020/03/13 21:54:00綜合IT流量圖,發現有部分沒法解釋的高峯

16. 2020/03/13 21:54:00 放大請求圖,發現每次請求有尖峯,而且迅速回落,推測此時應用被大量請求沖垮

17. 2020/03/13 21:55:00 多應用均有明顯的特徵
網絡

17. 2020/03/13 22:00:00 網關處發現巨大包,但排查後確認與這次故障無關
微服務

 

17. 2020/03/13 22:11:00 確認應用恢復正常
18. 2020/03/14 11:18:00 用戶依然報告故障,發現應用重啓78次
19. 2020/03/14 11:20:00 仔細篩查應用日誌,發現有沒法鏈接消息隊列的錯誤
20. 2020/03/14 11:48:00 確認兩個機房路由中斷,但公網正常
21. 2020/03/14 11:50:00 運營商報故障,同時遷移消息隊列
22. 2020/03/14 13:09:00 消息隊列遷移完成,故障恢復spa


3、修復方式
1. 遷移故障的消息隊列;
2. 對大壓力服務擴容。

4、 問題總結
3. 故障根本緣由: 消息隊列所在機房網絡故障;
4. 故障之後,pod重啓,而k8s檢測到故障到重啓須要耗費較大的時間,在此期間積壓了大量的請求,重啓完畢以後一瞬間恢復,將應用壓垮;
5. 因消息隊列鏈接不上,節點頻繁重啓;
6. 故障表現較多、干擾項很是多,如istio配置錯誤、DNS故障、內網鏈接失敗等,給故障排除帶來了干擾;
7. K8s特有的重啓機制,致使重啓一段時間後應用表現正常,爲故障排查也帶來了干擾。日誌

5、改進措施
1. 增強監控,尤爲是k8s服務的監控;
2. 完善日誌監控告警指標。

故障恢復 故障處理 故障開始時間 故障恢復時間 故障處理人
2020/03/13 15:38:00 2020/03/14 13:09:00 -
恢復結果 線上驗證恢復正常
備註
blog

相關文章
相關標籤/搜索