記一次差點翻車的生產變動

今天不談技術,講一下前不久變動差點翻車的事。windows

背景:由於安全緣由,須要對生產上運行的windows服務器進行打補丁操做,因爲是內網環境,只能離線方式進行升級。安全

配置說明:

編號 服務器型號 操做系統版本 補丁版本
A1 IBM X3650 M4 Windows Server 2008 R2 Standard SP1 2017年7月
A2 IBM X3650 M4 Windows Server 2008 R2 Standard SP1 2017年7月
B1 浪潮 NF5280M4 Windows Server 2008 R2 Standard SP1 2017年8月
B2 浪潮 NF5280M4 Windows Server 2008 R2 Standard SP1 2017年8月

A1和A2組成一套環境,B1和B2組成一套環境,兩套環境互爲主備。服務器

變動準備:

1.下載離線補丁包;運維

2.測試環境補丁升級;ide

測試環境與生產環境操做系統相同,離線包在測試環境升級時不是很順利,直接打到最新的11月份的補丁包失敗,摸索着由2017年的補丁一步一步日後打,能夠打到2020年1月份。學習

變動實施:

因爲測試環境打補丁只能到1月份,初步計劃生產環境4臺服務器也只打到1月份。測試

23:30,變動正式剛開始。按計劃先將第1臺打到了1月份,操做很順利,這時作了一個關鍵的臨時決定,試着直接打到最新的補丁包,結果有驚喜,竟然打成了。好吧,那就臨時改計劃,將剩餘的3臺都升級到最新的補丁包。操作系統

前兩臺進行的很順利,第3臺和第4臺的時候卡住了。打補丁會重啓服務器,正常狀況10分鐘就應該啓起來,20分鐘過去了仍是ping不通連不上,沒得轍,只能去機房捅屁股了(如今系統都上雲了,去機房的機會愈來愈少了)。這時快3點了。日誌

果真,第3臺在系統更新的時候卡住了,硬重啓系統恢復。it

關鍵的4臺,竟然崩潰了,是的,系統進不去,崩潰了……

晚上變動容易犯困,看到進不了系統,睏意全無,腎上腺素飆升。

時間來到快5點了,系統已經進不去,這時作了4個操做:1.中止第3臺的補丁升級操做;2.諮詢廠商,有無解決方案;3.通知系統使用方,作好切換準備;4.想辦法恢復系統。

變動以前通知過廠商晚上保障,預料過打補丁可能會失敗,可是沒想到系統直接會崩潰,沒辦法,事到如此,只能硬着頭皮上了,本身挖的坑,含淚也要填。

第一輪的自救不理想,廠商沒有解決辦法,本身百度的解決辦法也不成功。這時只能作最壞打算了——重裝系統和應用。

同時通知科室領導,說明狀況;通知廠商,作好打飛的初始化系統的準備。本身也根據報錯提示不斷尋找解決辦法,死馬當活馬醫吧。這個時候壓力其實仍是很大的,畢竟是生產系統,再過兩個小時就是業務高峯期。

時間快6點了,嘗試了各類辦法,作了兩個win pe,嘗試回退補丁,不成功,沒辦法,如今能作的只能嘗試更多的辦法,終於,有一個方案成功了,成功了,直接重置啓動項,竟然進系統了,驚喜不驚喜,開心不開心。

系統恢復後,對應用作了各項檢查,運行正常,決定補丁暫停升級,通知科室經理、廠商、業務方系統恢復。

各項處理完快7點了,肚子很餓,精神卻很好,天也亮了,吃個早餐吧,打工人不能太虧待本身。

覆盤:

1.變動前的測試

變動前的測試影響變動成敗的關鍵,不管變動大小,只要有條件都應該進行測試。好比系統類的擴文件系統、擴表空間、文件清理、系統參數調整;應用類的新業務上線、應用切換、漏洞升級等。只有經歷過充分的測試,才能作到成竹在胸,生產上遇到問題也不慌。

2.變動實施

變動要有手冊,手冊規定了操做步驟,命令可直接複製執行,執行完後的結果有截圖,異常狀況有回退方案。

變動實施應嚴格按測試結果執行,切忌臨時更改方案步驟。變動的操做只是機械的執行,主要工做都在變動前的準備測試階段。小到日誌清理,大到兩中心異地切換,變動實施都應該按手冊規範執行。

3.異常流程

生產上的變動會遇到各類問題,千奇百怪,可能測試環境和生產環境同樣(相同的操做系統版本、應用版本),可是執行結果不同,也有可能服務器在測試區各項測試都很正常,上了生產區卻有問題了。

出現這些問題很正常,由於咱們不能考慮到全部場景、環境、配置,這時應急流程就很重要了。出現了暫時沒法解決的問題,須要有一套完善的應急預案和異常流程,這既是對本身減壓,也是儘量下降對業務影響。

4.故障解決

出現的故障不要緊,解決它就是,運維就是填坑背鍋的嘛,填不了坑就光榮的背鍋。

故障的解決和我的的經驗和知識儲備有關,這個沒有捷徑,只能多學多作測試多總結多記錄了。

5.經驗教訓

此次是這些年來第二次變動遇到重大重大問題,第一次是服務器直接起不來。

運維的平常工做很繁雜,要會不少技術,知識面要求很寬,並且要不斷學習。

對服務器、對生產環境、對各類技術,要有敬畏之心,這些是咱們工做的朋友夥伴,要善待它們而不是輕視或者藐視。

做爲一個運維人,我很自豪,以上只是我的的一個小感觸,僅表明我的觀點,不接受反駁,哈哈哈……

相關文章
相關標籤/搜索