山石網科-Hillstone-HA(高可用)A/P環境固件版本業務平滑升級終結經驗篇

各位,好web


咱們在常見的企業邊緣的網絡架構中常常會遇到高可用、堆疊、VRRP等雙機部署情景,那我在前面介紹的一些案例當中,基本都是雙機部署,高可用的企業組網形式,網絡

因此,基礎的配置也都在前面介紹了,可是卻沒有介紹高可用的狀態下如何升級硬件的OS的情景,這裏由於在上週完成了一次(山石網科-HA)無縫遷移,因此咱們這裏特地總結以下思路,架構

與各位分享,歡迎你們參閱指正。ide


廠商給出的升級解決方案書:【我這裏也列出來下,你們能夠參考下,畢竟個人處理思路和廠商不一致】函數

抵達客戶現場前,首先肯定客戶使用設備目前的版本信息,本次升級的目的,並提早下載好須要升級的版本。抵達客戶現場後,在升級前,仍需作如下準備工做。工具

1.  Consle 登陸兩臺防火牆,使用 show configuration 查看兩臺設備的當前配置,並備份設備配置。(一樣可以使用 WebUI 登陸設備並進行配置備份)測試

2.  使用命令 show ha group 0 查看兩臺設備當前的主備關係,並關閉兩臺設備的HA 搶佔spa

【Allen回覆:實際更換中,除了HA搶佔,還有須要關閉monitor】日誌

3.  開啓 TFTP,並將升級的版本放置 TFTP 文件夾。使用以下命令上傳新 OS,並將原 OS 做爲備用 OS,新上傳的 OS 做爲新 OS。excel

HillstoneSA_B# import  image  from  tftp  server  192.168.1.254

SG6000-M-2-5.0R3P12.bin

#########################################################

#########################################################

#########################################################

Verified OK

Remove existing images and save? [y]/n: y

Saving ................................................................

Checking saved firmware .............................. OK

Set SG6000-M-2-5.0R3P12.bin as active boot image

【Allen回覆:如今都web上傳了,誰還用tftp,這一步就差評,不夠體諒用戶技術水平】


爲備機進行升級

1. 拔掉備機業務線及 HA 心跳線,使備機下線關閉兩臺設備的 HA 需使用命令 no HA cluster1;

2. 重啓備機,升級備機固件版本;

3. 待備機升級成功後,使用命令 show version 查看設備當前版本,並使用 show configuration 對比備機原配置和當前配置;

【Allen回覆:這一步沒有建議使用什麼工具對比,難道要肉眼看?沒考慮用戶】

4. 拔掉主機業務線及 HA 心跳線,讓主機下線;

【Allen回覆:這裏描述太粗,由於拔掉和備機上線是一塊兒的操做】

5. 鏈接備機業務線及 HA 心跳線,此時業務流量走備機;

【Allen回覆:這裏主機的業務線和HA心跳線須要接入嗎?若是接入,爲何不在升級以後再鏈接主設備】

6. 觀察備機工做狀態,確保業務能夠在備機上正常運行。

【Allen回覆:這一步徹底能夠在切換流量後一塊兒確認,多餘】


爲主機進行升級

1. 將 OS 上傳至主機,並設置爲當前 OS,對主設備進行重啓;

2. 待主機升級成功後,使用 show version 查看設備當前版本,並使用命令 show

configuration 對比設備的原配置和當前配置;

3. 使用命令 ha group cluster1 在兩臺設備上開啓 HA;

4. 鏈接主機業務線和 HA 心跳線;

5. 待 HA 成功協商後,使用命令 preemt 爲主機配置搶佔,業務流量從新恢復到主機;

6. 觀察主機業務狀態,確保業務能夠在主機上正常運行。

【Allen回覆:爲備/主機進行升級、這倆個步驟在描述中,用戶會默認認爲先進行備機,可是在整個實施過程中,這兩步是有不少須要同時進行的,這裏描述太粗,差評】


其餘升級注意事項:

  1.  最好在抵達客戶現場前提起拿到客戶設備的當前版本和配置,能夠在公司使用測試設備對升級方案進行驗證。

【Allen回覆:客戶怎麼有可能有一樣的設備,做爲原廠應該提供升級測試報告+升級計劃建議書,而不是僅僅提供升級計劃建議書】

2.  因爲設備切換間會有短暫的斷網,需與客戶提早溝通,確認具體的升級時間計劃。

【Allen回覆:我我的在整個升級過程中,客戶業務徹底沒有任何中斷,甚至丟包也之多隻有3個,這很明顯發現,這份建議書在技術上是有很大瑕疵的】




我的梳理後的操做步驟:(請現場同事同時記錄全部操做細節和完成時間)

PS:爲何要作這一步,由於咱們是一家專業的技術服務公司,因此咱們隊每個步驟都須要記錄,以供咱們在後期覆盤與思考。這樣會有更多的總結出來。因此咱們特地記錄了每個節點的時間。紅字爲我我的記錄時間。


1.將主備防火牆配置文件web導出,本地備份(共計兩份)-可提早操做將主(備)設備搶佔功能關閉、HA檢測關閉,當前配置:主防火牆有搶佔、主備均掛在了track

總耗時:1分51秒

              

2.本地web執行上傳OS,主備同時進行,升級---【該步驟可提早給備防火牆實施】,並點擊暫不重啓按鈕。

總耗時:3分45秒


3.console接入備機,將備機設備剝離安能網絡環境,業務線、心跳線、內網線路所有拔掉,並將備機HA羣集ID,no掉。使其不運行HA協議,單機跑

總耗時:1分鐘內


4.本地console重啓備機,使OS版本爲前面上傳的最新版本。

總耗時:4分鐘


5.備機OS固件升級完成後,console:show version查看運行的版本,並使用show configuration好比當前配置文件。【notepad++或excel函數比較觀察】

總耗時:2分鐘


6.備機升級OS後配置文件確認無誤後,並確認沒有運行HA協議後進行流量切換的動做-預計可能會存在中斷1分鐘內

總耗時:1分鐘

主業務丟包:小於4個(用戶徹底無感知)


7.在步驟6切換過程當中,同時進行console接入主防火牆將主防火牆剝離安能網路環境,業務線、心跳線、內網線路所有拔掉。完成原備機流量的切換,全部線路(業務、心跳(down狀態)、內網),使流量切換至備防火牆。

總耗時:1分鐘


8.將備機的HA協議起來,即:目前正在跑流量的設備,切記這裏不要掛HA的檢測

總耗時:15秒


9.確認流量切換完成後,進行主防火牆重啓,使OS爲前面上傳的最新版本。

總耗時:3分13秒


10.比對主防火牆配置文件,查看版本,notepad++、excel對比確認

總耗時:2分鐘


11.將主防火牆和備防火牆的HA心跳線互聯,確認HA狀態協議是否正常:show ha group 0---成功時【此時協商日誌翻動】,並確認無搶佔

總耗時:18秒


12.console接入主防火牆,接入主防火牆業務、內網線路。確認HA狀態,並觀察業務網絡是否受影響,詳細觀察並測試主備防火牆公網虛擬IP、管理IP(BGP、CTC),是否正常Ping通,若業務存在影響即刻「拔掉」主防火牆全部線路。

總耗時:1分鐘

業務觀察時間:2分鐘


13.通知客戶團隊,協同確認全部監控是否已經正常恢復。

總耗時:1分鐘

客戶團隊確認業務耗時:15分鐘


14.console接入主防火牆,配置HA搶佔功能。還原升級前主備角色。

語法:show ha group 0 先確認ha狀態

Hillstone-A(config)# ha group 0

Hillstone-A(config-ha-group)# preempt

總耗時:35秒


15.模擬設備故障,測試高可用角色熱切換。觀察業務地址丟包狀況並記錄。

總耗時:15秒

丟包狀況:丟包1個(接受範圍內)


16*. 在維護窗口60分鐘中,若在40分鐘內依據升級流程未完成任務,執行回退工做。


IDC機房現場同事實際記錄時間爲:

11:45 開始執行操做

11:48 備防火牆固件上傳成功

12:00 拔掉全部備防火牆網線,並重啓備防火牆,確認備防火牆固件版本升級成功

12:07 配置比對完成,準備作流量切換操做

12:09 打電話給用戶目前下一步action可能會中斷業務,確認是否能夠接受操做

PS:這一步是存在疑問的,由於維護窗口已經確認,那期間全部操做是已經被受權的

12:11 用戶告知30分以後方可操做

12:30 確認操做並執行切換,並同時將主防火牆網線所有拔掉

12:31 觀察生產業務狀況

12:32 確認業務正常,僅丟3個包

12:34 升級主防火牆的固件OS

12:36 將備防火牆的HA協議啓用

12:38 確認固件升級完畢,重啓主防火牆,使其固件版本升級成功

12:40 開始着手比對升級先後的配置文件

12:45 主防火牆配置比對結束

12:47 鏈接主防火牆和備防火牆HA心跳線路,並使確認HA協議運行正常

12:51 觀察HA雙機配置文件

12:53 與用戶溝通是否能夠進行演練主備切換

12:59 模擬故障切換,切換期間業務IP丟包1個

13:01 確認這次升級計劃完成

PS:因中間客戶告知30分鐘以後才能夠執行,故回退計劃時間順延20分也就是13點,咱們在此時間內已確認升級計劃結束。



綜上,就是我在給山石網科雙機升級時候的總體思路,並在真實環境中獲得了充分的驗證,確實準備充足後,實施的過程不會出現任何差錯,別很是順利的完成了升級。關鍵是客戶徹底沒有任何感知,這個是這次案例中,我做爲割接的「主刀」工程師的最自豪的地方。


因此這裏,再次嘮叨一句,你們不要太關注技術實現,適當的注意思路還有文檔的撰寫。

                  —————來自一家二級運營商的網工分享,勤奮、努力、專一,除了這些沒別的祕訣!!

相關文章
相關標籤/搜索