各位,好web
咱們在常見的企業邊緣的網絡架構中常常會遇到高可用、堆疊、VRRP等雙機部署情景,那我在前面介紹的一些案例當中,基本都是雙機部署,高可用的企業組網形式,網絡
因此,基礎的配置也都在前面介紹了,可是卻沒有介紹高可用的狀態下如何升級硬件的OS的情景,這裏由於在上週完成了一次(山石網科-HA)無縫遷移,因此咱們這裏特地總結以下思路,架構
與各位分享,歡迎你們參閱指正。ide
廠商給出的升級解決方案書:【我這裏也列出來下,你們能夠參考下,畢竟個人處理思路和廠商不一致】函數
抵達客戶現場前,首先肯定客戶使用設備目前的版本信息,本次升級的目的,並提早下載好須要升級的版本。抵達客戶現場後,在升級前,仍需作如下準備工做。工具
1. Consle 登陸兩臺防火牆,使用 show configuration 查看兩臺設備的當前配置,並備份設備配置。(一樣可以使用 WebUI 登陸設備並進行配置備份)測試
2. 使用命令 show ha group 0 查看兩臺設備當前的主備關係,並關閉兩臺設備的HA 搶佔spa
【Allen回覆:實際更換中,除了HA搶佔,還有須要關閉monitor】日誌
3. 開啓 TFTP,並將升級的版本放置 TFTP 文件夾。使用以下命令上傳新 OS,並將原 OS 做爲備用 OS,新上傳的 OS 做爲新 OS。excel
HillstoneSA_B# import image from tftp server 192.168.1.254
SG6000-M-2-5.0R3P12.bin
#########################################################
#########################################################
#########################################################
Verified OK
Remove existing images and save? [y]/n: y
Saving ................................................................
Checking saved firmware .............................. OK
Set SG6000-M-2-5.0R3P12.bin as active boot image
【Allen回覆:如今都web上傳了,誰還用tftp,這一步就差評,不夠體諒用戶技術水平】
爲備機進行升級
1. 拔掉備機業務線及 HA 心跳線,使備機下線關閉兩臺設備的 HA 需使用命令 no HA cluster1;
2. 重啓備機,升級備機固件版本;
3. 待備機升級成功後,使用命令 show version 查看設備當前版本,並使用 show configuration 對比備機原配置和當前配置;
【Allen回覆:這一步沒有建議使用什麼工具對比,難道要肉眼看?沒考慮用戶】
4. 拔掉主機業務線及 HA 心跳線,讓主機下線;
【Allen回覆:這裏描述太粗,由於拔掉和備機上線是一塊兒的操做】
5. 鏈接備機業務線及 HA 心跳線,此時業務流量走備機;
【Allen回覆:這裏主機的業務線和HA心跳線須要接入嗎?若是接入,爲何不在升級以後再鏈接主設備】
6. 觀察備機工做狀態,確保業務能夠在備機上正常運行。
【Allen回覆:這一步徹底能夠在切換流量後一塊兒確認,多餘】
爲主機進行升級
1. 將 OS 上傳至主機,並設置爲當前 OS,對主設備進行重啓;
2. 待主機升級成功後,使用 show version 查看設備當前版本,並使用命令 show
configuration 對比設備的原配置和當前配置;
3. 使用命令 ha group cluster1 在兩臺設備上開啓 HA;
4. 鏈接主機業務線和 HA 心跳線;
5. 待 HA 成功協商後,使用命令 preemt 爲主機配置搶佔,業務流量從新恢復到主機;
6. 觀察主機業務狀態,確保業務能夠在主機上正常運行。
【Allen回覆:爲備/主機進行升級、這倆個步驟在描述中,用戶會默認認爲先進行備機,可是在整個實施過程中,這兩步是有不少須要同時進行的,這裏描述太粗,差評】
其餘升級注意事項:
最好在抵達客戶現場前提起拿到客戶設備的當前版本和配置,能夠在公司使用測試設備對升級方案進行驗證。
【Allen回覆:客戶怎麼有可能有一樣的設備,做爲原廠應該提供升級測試報告+升級計劃建議書,而不是僅僅提供升級計劃建議書】
2. 因爲設備切換間會有短暫的斷網,需與客戶提早溝通,確認具體的升級時間計劃。
【Allen回覆:我我的在整個升級過程中,客戶業務徹底沒有任何中斷,甚至丟包也之多隻有3個,這很明顯發現,這份建議書在技術上是有很大瑕疵的】
我的梳理後的操做步驟:(請現場同事同時記錄全部操做細節和完成時間)
PS:爲何要作這一步,由於咱們是一家專業的技術服務公司,因此咱們隊每個步驟都須要記錄,以供咱們在後期覆盤與思考。這樣會有更多的總結出來。因此咱們特地記錄了每個節點的時間。紅字爲我我的記錄時間。
1.將主備防火牆配置文件web導出,本地備份(共計兩份)-可提早操做將主(備)設備搶佔功能關閉、HA檢測關閉,當前配置:主防火牆有搶佔、主備均掛在了track
總耗時:1分51秒
2.本地web執行上傳OS,主備同時進行,升級---【該步驟可提早給備防火牆實施】,並點擊暫不重啓按鈕。
總耗時:3分45秒
3.console接入備機,將備機設備剝離安能網絡環境,業務線、心跳線、內網線路所有拔掉,並將備機HA羣集ID,no掉。使其不運行HA協議,單機跑
總耗時:1分鐘內
4.本地console重啓備機,使OS版本爲前面上傳的最新版本。
總耗時:4分鐘
5.備機OS固件升級完成後,console:show version查看運行的版本,並使用show configuration好比當前配置文件。【notepad++或excel函數比較觀察】
總耗時:2分鐘
6.備機升級OS後配置文件確認無誤後,並確認沒有運行HA協議後進行流量切換的動做-預計可能會存在中斷1分鐘內
總耗時:1分鐘
主業務丟包:小於4個(用戶徹底無感知)
7.在步驟6切換過程當中,同時進行console接入主防火牆將主防火牆剝離安能網路環境,業務線、心跳線、內網線路所有拔掉。完成原備機流量的切換,全部線路(業務、心跳(down狀態)、內網),使流量切換至備防火牆。
總耗時:1分鐘
8.將備機的HA協議起來,即:目前正在跑流量的設備,切記這裏不要掛HA的檢測
總耗時:15秒
9.確認流量切換完成後,進行主防火牆重啓,使OS爲前面上傳的最新版本。
總耗時:3分13秒
10.比對主防火牆配置文件,查看版本,notepad++、excel對比確認
總耗時:2分鐘
11.將主防火牆和備防火牆的HA心跳線互聯,確認HA狀態協議是否正常:show ha group 0---成功時【此時協商日誌翻動】,並確認無搶佔
總耗時:18秒
12.console接入主防火牆,接入主防火牆業務、內網線路。確認HA狀態,並觀察業務網絡是否受影響,詳細觀察並測試主備防火牆公網虛擬IP、管理IP(BGP、CTC),是否正常Ping通,若業務存在影響即刻「拔掉」主防火牆全部線路。
總耗時:1分鐘
業務觀察時間:2分鐘
13.通知客戶團隊,協同確認全部監控是否已經正常恢復。
總耗時:1分鐘
客戶團隊確認業務耗時:15分鐘
14.console接入主防火牆,配置HA搶佔功能。還原升級前主備角色。
語法:show ha group 0 先確認ha狀態
Hillstone-A(config)# ha group 0
Hillstone-A(config-ha-group)# preempt
總耗時:35秒
15.模擬設備故障,測試高可用角色熱切換。觀察業務地址丟包狀況並記錄。
總耗時:15秒
丟包狀況:丟包1個(接受範圍內)
16*. 在維護窗口60分鐘中,若在40分鐘內依據升級流程未完成任務,執行回退工做。
IDC機房現場同事實際記錄時間爲:
11:45 開始執行操做
11:48 備防火牆固件上傳成功
12:00 拔掉全部備防火牆網線,並重啓備防火牆,確認備防火牆固件版本升級成功
12:07 配置比對完成,準備作流量切換操做
12:09 打電話給用戶目前下一步action可能會中斷業務,確認是否能夠接受操做
PS:這一步是存在疑問的,由於維護窗口已經確認,那期間全部操做是已經被受權的
12:11 用戶告知30分以後方可操做
12:30 確認操做並執行切換,並同時將主防火牆網線所有拔掉
12:31 觀察生產業務狀況
12:32 確認業務正常,僅丟3個包
12:34 升級主防火牆的固件OS
12:36 將備防火牆的HA協議啓用
12:38 確認固件升級完畢,重啓主防火牆,使其固件版本升級成功
12:40 開始着手比對升級先後的配置文件
12:45 主防火牆配置比對結束
12:47 鏈接主防火牆和備防火牆HA心跳線路,並使確認HA協議運行正常
12:51 觀察HA雙機配置文件
12:53 與用戶溝通是否能夠進行演練主備切換
12:59 模擬故障切換,切換期間業務IP丟包1個
13:01 確認這次升級計劃完成
PS:因中間客戶告知30分鐘以後才能夠執行,故回退計劃時間順延20分也就是13點,咱們在此時間內已確認升級計劃結束。
綜上,就是我在給山石網科雙機升級時候的總體思路,並在真實環境中獲得了充分的驗證,確實準備充足後,實施的過程不會出現任何差錯,別很是順利的完成了升級。關鍵是客戶徹底沒有任何感知,這個是這次案例中,我做爲割接的「主刀」工程師的最自豪的地方。
因此這裏,再次嘮叨一句,你們不要太關注技術實現,適當的注意思路還有文檔的撰寫。
—————來自一家二級運營商的網工分享,勤奮、努力、專一,除了這些沒別的祕訣!!