磁盤陣列及MSCS的維護

詳細描述本人在使用IBM磁盤陣列及MSCS的平常維護方法,並對可能出現的問題說明了解決方法。ios

 

1、 磁盤陣列的維護服務器

 

基本知識ide

一、陣列的四種主要狀態:工具

。Online(在線):Cluster中有控制權的節點的陣列狀態。ui

。Offline(脫機):Cluster中無控制權的節點的陣列狀態,或有控制權,但處於脫機狀態。spa

。Critical(臨界狀態):在Cluster中,處於此狀態的陣列不容許進行切換,必須在原來有控制權的機器上對陣列進行恢復,即進行Rebuild或其它恢復操做。命令行

。Blocked(阻塞狀態):只出如今RAID0級別中。在Cluster中,處於此狀態的陣列不容許進行切換或讀寫操做,必須在原來有控制權的機器上對陣列進行恢復。ip

 

二、磁盤的兩種主要狀態:資源

。Online(在線):硬盤燈爲綠色或指示燈不亮(與陣列櫃型號有關)。此時陣列的狀態爲Online。同步

。 Defunct(非在線、失效):硬盤燈爲紅色。此時陣列的狀態爲Offline、Critical或Blocked。

 

三、每次切換後,磁盤陣列都會進行一次數據的同步,此時硬盤燈出現有規則的閃爍,持續時間大概爲2小時左右(與陣列容量有關)。同時仍然能夠進行其它操做,可是必定不能斷電或進行熱插拔操做,不然陣列信息將丟失。

 

四、硬盤的Firmware版本查看:

在ServeRaid Manager的物理磁盤組中,點擊要查看硬盤,屏幕上將顯示該硬盤的的Firmware版本號。

說明:版本要求爲1.09(或S96E)以上。

 

五、陣列卡的Firmware及Bios版本查看:

在ServeRaid Manager中,點擊要查看的控制卡,屏幕上將顯示該陣列卡的Firmware 及Bios版本號。

說明:Firmware版本應爲3.70以上、 Bios版本應爲4.0以上。

 

現象觀察

      一、查看陣列櫃的前面板的狀態燈提示

通常陣列櫃中硬盤有兩個指示燈,一個爲狀態燈(紅),一個爲硬盤讀寫指示燈(綠)。

。若干磁盤的綠燈不規則閃爍表示爲對該盤當前有讀寫操做(此時綠燈較亮),陣列爲Online狀態;

。所有磁盤的綠燈規則閃爍表示陣列做同步操做(此時綠燈較暗),陣列爲Online狀態;

。磁盤的綠燈全滅表示當前無操做,陣列處於Online狀態;

。單個硬盤亮紅燈表示此盤狀態爲DDD(不可用)或OffLine;

。某個硬盤綠燈及桔黃燈交替規則閃爍表示該盤正在Rebuild;

。兩個以上硬盤亮紅燈時表示陣列櫃已壞,Cluster 必然當機。

 

二、經過ServeRaid Manager管理工具查看

在有控制權的節點啓動ServeRaid Manager。

。控制器、邏輯盤處於OK狀態;

。構成陣列的物理硬盤處於Online狀態(若是存在Hot Spare盤,可看到本機的Hot Spare盤狀態爲Hot Spare,另外一節點的Hot Spare盤狀態爲Ready);

。若是存在Hot Spare 硬盤,則在Hot Spare 菜單中能夠找到該硬盤;

。若是某物理硬盤狀態爲DDD,說明該盤已不可用,須要修復或替換;

。若是某塊物理硬盤狀態爲Offline,表示該盤爲脫機狀態(未損壞);

。在RAID 一、RAID 1E、RAID 5及RAID 5E 中若是某一硬盤狀態爲DDD或Offline,則陣列或邏輯盤狀態爲Critical,即臨界狀態;

。在RAID 0 中,若是某一硬盤狀態爲DDD或Offline,則陣列或邏輯盤狀態爲Blocked,即阻塞狀態,此時對硬盤不能進行任何操做,等待恢復完後,手工將Blocked 狀態設爲UnBlocked狀態;

 

說明:無控制權的節點陣列中的磁盤狀態爲Defunct(Hot Spare盤爲正常)。

 

磁盤異常狀態處理

要求主機對磁盤陣列擁有控制權。

一、單個磁盤DDD狀態,此時禁止Cluster切換(可關閉備機)。

說明:DDD狀態並不必定表示硬盤物理故障,根據該盤的使用狀況,有以下處理方法:

。該盤做爲Array磁盤時,而且該節點存在Hot Spare盤 :當該盤失效時,Hot Spare 盤自動完成接管,陣列自動進入Rebuild狀態,同時該盤狀態轉爲Hot Spare。若是沒有自動Rebuild,須要人工執行Rebuild 操做,完畢後,將該盤設置爲Hot Spare狀態。若人工Rebuild操做失敗,可拔出此盤,隔一分鐘後再插入磁盤櫃中,重複上述操做;若是仍然失敗,說明該盤可能存在物理故障。

。該盤做爲Array磁盤時,節點無Hot Spare 盤;選中該盤,按鼠標右鍵,執行Rebuild操做,若操做失敗,可拔出此盤,隔一分鐘後再插入磁盤櫃中,重複上述操做;若是仍然失敗,說明該盤存在物理故障。

。該盤爲Hot Spare 盤:選中該盤,按鼠標右鍵,執行Delete Hot Spare將此盤從Hot Spare狀態刪除,再將該盤從新設置爲Hot Spare(也可以使用Replace and Rebuild進行)。若是操做失敗,可拔出此盤,隔一分種後再插入磁盤櫃中,重複上述操做;若是仍然失敗,說明該盤可能存在物理故障。

 

二、單個磁盤Offline狀態

手工設置爲Online;若是不成功,先關閉備機(無控制權),再重啓主機,而後從新設置爲Online;若是還不成功,將盤拔出磁盤櫃,隔一分鐘後從新插入櫃中,再次關閉備機(無控制權),再分別從新啓動主機和備機。

 

如下兩種狀況先關掉B機,防止系統切換

三、兩個盤 Offline狀態

先將其中一個Online,所另外一個做Rebuild操做,完成後從新啓動主機。

 

四、一個Offline,一個DDD

      將Offline盤設置爲 Online,對DDD盤做Rebuild操做,完成後從新啓動主機。

 

五、硬盤狀態爲Defunct時,可按下列步驟進行恢復

。打開ServeRaid Manager。

。 選中Defunct的硬盤,按右鍵。

。使用Replace And Rebuild對硬盤數據進行重建。

。按照屏幕提示,須要先將硬盤拔出,而後再插入。

 

磁盤陣列異常處理

一、當陣列處於Critical時,只需在原來有控制權的機器上對故障硬盤進行Rebuild便可。

 

二、當陣列處於Blocked時,做以下操做:

。爲了保證對陣列的恢復,先將原來沒有控制權的機器關閉。

。從新啓動有控制權的機器,此時系統提示:按F4——修正錯誤;F5 ——接收當前配置。

。按F4修正當前的錯誤,將Blocked狀態修正爲Critical狀態。

。系統自動對硬盤進行Rebuild。

 

硬盤Rebuild時的進度顯示ServeRaid Manager中窗口底部的狀態條中

 

2、MSCS的維護:

 

MSCS的維護與陣列的維護密切相關,若是陣列工做狀態正常,則MSCS通常狀況下也正常,可是若是Cluster 中的某些服務不能啓動或損壞,MSCS可能發生工做異常。

如下是平常維護操做說明:

 

一、首先檢查RAID的工做狀態(經過IBM ServeRaid manager檢查);

二、使用Cluster Administators查看每一個服務的工做狀況,全部資源應爲Online;

三、若是某服務或資源處於Offline狀態時,先查明緣由,而後人工設置爲Online;

四、若是磁盤或磁盤陣列工做異常,可按照磁盤陣列的維護進行處理;

注意:此時陣列處於Critical狀態,應防止、禁止切換操做(採起關閉備機的辦法)。

五、若是異外斷電(全部設備所有斷電),啓動時按下列順序啓動系統:

。先啓動陣列櫃;

。陣列櫃加電後,啓動斷電前屬於控制狀態的節點;     

。待徹底啓動後,再啓動另一個節點。

雙機系統中存在主域控制服務器,應先啓動主域控制服務器。

六、緊急狀況下關機順序以下:

。首先關閉處於備用狀態的節點;

。再關閉處於控制狀態的節點;

。最後關閉磁盤陣列。

原則上陣列櫃不能掉電,特別是正在對進行陣列的讀寫操做時。

七、在特殊狀況下,Cluster可能不能啓動,通常狀況下可能該節點對磁盤陣列無控制權,此時在命令行方式下執行ipshahto.exe文件,強行取得控制權。

 

此步驟建議在由技術人員指導下進行。

八、當硬盤正在Rebuild時,不容許切換;正在同步時,儘可能不要切換;

相關文章
相關標籤/搜索