關於故障的過後覆盤,英文名 Case Study是很是有必要作的,固然是根據故障的級別,不可能作到每一個故障都Case Study,除非人員和時間充足;web
文檔能力也是能力的一種,通常工程師的文檔能力比較薄弱或者通常 ,可是通常各類類型的文檔其實都有模板,根據模板填充內容也能事半功倍。數據庫
故障要有記錄, 每一個公司應當都有wiki,這些覆盤應當記錄下來,能學習到不少。Case Study會佔用大量的時間, 可是中級以及重大故障仍是有必要的。服務器
下面介紹的就是覆盤的總體套路:運維
雲主機所在的宿主機物理故障致使多臺服務器同時宕機.優化
請求總量: 584472 文檔
後續優化get
以上是一個簡單的故障覆盤模型 , 第一步是先根據時間線還原整個故障開始到結束的過程, 第二就是找出問題點(root cause),第三就是看有什麼具體的改進措施以及優化,避免再次出現同類故障。it