某2節點萬兆網卡直連vSAN延伸羣集故障修復


某2節點萬兆網卡直連vSAN延伸羣集(網絡拓撲如圖1所示),在某一天晚上,首選站點節點1服務器(圖1中IP地址爲192.168.251.2的計算機)的一條64GB內存出問題致使服務器死機。次日管理員到單位以後,發現全部的業務虛擬機都沒法使用。此時vCenter Server已經沒法鏈接。使用vSphere Host Client能夠直接登陸到192.168.251.二、192.168.251.三、192.168.251.6等每臺主機,但虛擬機的信息不正常,已經沒法顯示虛擬機的名稱,另外vSAN存儲容量只有其中一臺主機的容量(每臺主機配置了1個磁盤組,每一個磁盤組有1塊400GB的SSD、5塊1.2TB的HDD,總容量是10.92T,如今只有5.46TB)。服務器

image

圖1 拓撲圖網絡

在關閉這三臺服務器,而後打開服務器的電源以後,業務仍然沒有恢復。後來檢查發現,將IP地址爲192.168.251.2的故障主機關閉,只打開IP地址爲192.168.251.3與192.168.251.6的主機(包括見證虛擬機,IP地址爲192.168.251.8),此時包括vCenter Server在內的全部虛擬機都自動啓動並能夠對外提供服務。若是此時再打開192.168.251.2的主機,則全部的虛擬機都會死機。爲了避免影響業務的辦理,用戶暫時關閉了192.168.251.2的主機。此時在vSphere Web Client中顯示192.168.251.2無響應,主機已從VC斷開鏈接,如圖2所示。ssh

image

圖2 IP地址爲192.168.251.2的主機已斷開鏈接ide

在「監控→vSAN→虛擬對象」中,能夠看到全部的服務器都提示「可用性下降但未重建」,如圖3所示。由於此時首選站點節點主機不在線,系統沒法重建冗餘數據。3d

image

圖3 虛擬對象對象

在「配置→vSAN→磁盤管理」中,看到192.168.251.2狀態爲「未響應」,見證主機與192.168.251.3的狀態正常,如圖4所示。blog

image

圖4 磁盤管理ip

在關機以後,用戶使用備用內存,更換了192.168.251.2這臺主機的內存。內存

晚上下班以後,在不影響業務虛擬機使用的狀況下,使用下述的方法修復了192.168.251.2的主機。主要方法與步驟以下。get

(1)使用vSphere Web Client登陸到vCenter Server,從清單中移除IP地址爲192.168.251.2的主機。移除以後如圖5所示。

image

圖5 移除節點1的主機

(2)由於IP地址爲192.168.251.2的主機沒法上線,因此,將192.168.251.2的管理端口網線暫時斷開,等服務器開機並進入控制檯界面以後,按F2進入系統配置,在「System Customization」中移動光標到Reset System Configuration按回車鍵,在彈出的對話框再次按回車鍵重置系統配置,如圖6所示。重置以後,系統將會從新啓動,root密碼重置爲空(無密碼)

image

圖6 系統重置

(3)再次進入系統後,使用用戶名root、密碼爲空登陸。進入系統以後,爲服務器從新設置管理IP地址、選擇管理網卡,仍然使用原來的IP地址192.168.251.二、使用原來的網卡端口,並設置爲原來的密碼。而後從新插上服務器管理網卡的網線。

(4)在vSphere Web Client中,將192.168.251.2加入清單。參照192.168.251.1的網絡設置,爲192.168.251.2從新建立虛擬交換機,併爲192.168.251.2的主機設置vSAN流量。如圖7所示。

image

圖7 從新配置vSAN流量

(5)此時在「羣集→配置→磁盤管理」中,能夠看到192.168.251.2的磁盤組已經添加,但狀態不正常。如圖8所示。

image

圖8 從新加入的節點主機磁盤狀態不正常

(6)使用ssh登陸到節點1的ESXi主機,執行esxcli vsan network ip add -I vmk0 -T=witness命令將192.168.251.2的管理地址設置爲見證流量。如圖9所示。

image

圖9 設置見證流量

(7)在「配置→vSAN→故障域和延伸羣集」中,從新將IP地址爲192.168.251.2的主機添加到「首選」站點,注意,兩臺節點主機,必須一臺主機在「首選」站點,一臺在「輔助」站點,其餘名稱都不行。如圖10所示。

image

圖10 配置故障域

(8)在「配置→vSAN→磁盤管理」中,能夠看到192.168.251.2的磁盤組狀態已經正常,如圖11所示。

image

圖11 磁盤組狀態正常

(9)在「監控→vSAN→虛擬對象」中,看到大多數的虛擬機狀態都恢復正常,只有一臺虛擬機數據須要重建,如圖12所示。

image

圖12 查看虛擬對象

(10)在「監控→vSAN→從新同步組件」中,能夠看到正在從新同步的組件,當前只有一個磁盤文件須要同步,如圖13所示。

image

圖13 查看從新同步組件

(11)在導航器中選中每臺主機,在「監控→問題」中,檢查確認當前主機的問題。

(12)在「監控→vSAN→運行情況」中,查看vSAN運行情況,在解決全部問題後,運行狀態都是顯示「已經過」,如圖14所示。此時表示vSAN恢復正常。

image

圖14 運行情況正常

【總結】這個故障現象比較特殊。正常狀況下,若是節點主機出現故障,只要修復了節點主機並從新上線,vSAN會從新鏈接。不多出現vSAN主機都在線而致使虛擬機沒法訪問的狀況。由於首選站點的主機上線就會致使vSAN羣集出錯,因此本次修復的關鍵就是在首選站點不在線的前提下從新配置首選站點。若是從新配置首選站點,能夠從新安裝ESXi,也能夠重置ESXi而後再從新配置。本節就選擇了第二種方法。

相關文章
相關標籤/搜索