詳細描述本人在使用IBM磁盤陣列及MSCS的平常維護方法,並對可能出現的問題說明了解決方法。ios
1、 磁盤陣列的維護服務器
基本知識ide
一、陣列的四種主要狀態:工具
。Online(在線):Cluster中有控制權的節點的陣列狀態。ui
。Offline(脫機):Cluster中無控制權的節點的陣列狀態,或有控制權,但處於脫機狀態。spa
。Critical(臨界狀態):在Cluster中,處於此狀態的陣列不容許進行切換,必須在原來有控制權的機器上對陣列進行恢復,即進行Rebuild或其它恢復操做。命令行
。Blocked(阻塞狀態):只出如今RAID0級別中。在Cluster中,處於此狀態的陣列不容許進行切換或讀寫操做,必須在原來有控制權的機器上對陣列進行恢復。ip
二、磁盤的兩種主要狀態:資源
。Online(在線):硬盤燈爲綠色或指示燈不亮(與陣列櫃型號有關)。此時陣列的狀態爲Online。同步
。 Defunct(非在線、失效):硬盤燈爲紅色。此時陣列的狀態爲Offline、Critical或Blocked。
三、每次切換後,磁盤陣列都會進行一次數據的同步,此時硬盤燈出現有規則的閃爍,持續時間大概爲2小時左右(與陣列容量有關)。同時仍然能夠進行其它操做,可是必定不能斷電或進行熱插拔操做,不然陣列信息將丟失。
四、硬盤的Firmware版本查看:
在ServeRaid Manager的物理磁盤組中,點擊要查看硬盤,屏幕上將顯示該硬盤的的Firmware版本號。
說明:版本要求爲1.09(或S96E)以上。
五、陣列卡的Firmware及Bios版本查看:
在ServeRaid Manager中,點擊要查看的控制卡,屏幕上將顯示該陣列卡的Firmware 及Bios版本號。
說明:Firmware版本應爲3.70以上、 Bios版本應爲4.0以上。
現象觀察
一、查看陣列櫃的前面板的狀態燈提示
通常陣列櫃中硬盤有兩個指示燈,一個爲狀態燈(紅),一個爲硬盤讀寫指示燈(綠)。
。若干磁盤的綠燈不規則閃爍表示爲對該盤當前有讀寫操做(此時綠燈較亮),陣列爲Online狀態;
。所有磁盤的綠燈規則閃爍表示陣列做同步操做(此時綠燈較暗),陣列爲Online狀態;
。磁盤的綠燈全滅表示當前無操做,陣列處於Online狀態;
。單個硬盤亮紅燈表示此盤狀態爲DDD(不可用)或OffLine;
。某個硬盤綠燈及桔黃燈交替規則閃爍表示該盤正在Rebuild;
。兩個以上硬盤亮紅燈時表示陣列櫃已壞,Cluster 必然當機。
二、經過ServeRaid Manager管理工具查看
在有控制權的節點啓動ServeRaid Manager。
。控制器、邏輯盤處於OK狀態;
。構成陣列的物理硬盤處於Online狀態(若是存在Hot Spare盤,可看到本機的Hot Spare盤狀態爲Hot Spare,另外一節點的Hot Spare盤狀態爲Ready);
。若是存在Hot Spare 硬盤,則在Hot Spare 菜單中能夠找到該硬盤;
。若是某物理硬盤狀態爲DDD,說明該盤已不可用,須要修復或替換;
。若是某塊物理硬盤狀態爲Offline,表示該盤爲脫機狀態(未損壞);
。在RAID 一、RAID 1E、RAID 5及RAID 5E 中若是某一硬盤狀態爲DDD或Offline,則陣列或邏輯盤狀態爲Critical,即臨界狀態;
。在RAID 0 中,若是某一硬盤狀態爲DDD或Offline,則陣列或邏輯盤狀態爲Blocked,即阻塞狀態,此時對硬盤不能進行任何操做,等待恢復完後,手工將Blocked 狀態設爲UnBlocked狀態;
說明:無控制權的節點陣列中的磁盤狀態爲Defunct(Hot Spare盤爲正常)。
磁盤異常狀態處理
要求主機對磁盤陣列擁有控制權。
一、單個磁盤DDD狀態,此時禁止Cluster切換(可關閉備機)。
說明:DDD狀態並不必定表示硬盤物理故障,根據該盤的使用狀況,有以下處理方法:
。該盤做爲Array磁盤時,而且該節點存在Hot Spare盤 :當該盤失效時,Hot Spare 盤自動完成接管,陣列自動進入Rebuild狀態,同時該盤狀態轉爲Hot Spare。若是沒有自動Rebuild,須要人工執行Rebuild 操做,完畢後,將該盤設置爲Hot Spare狀態。若人工Rebuild操做失敗,可拔出此盤,隔一分鐘後再插入磁盤櫃中,重複上述操做;若是仍然失敗,說明該盤可能存在物理故障。
。該盤做爲Array磁盤時,節點無Hot Spare 盤;選中該盤,按鼠標右鍵,執行Rebuild操做,若操做失敗,可拔出此盤,隔一分鐘後再插入磁盤櫃中,重複上述操做;若是仍然失敗,說明該盤存在物理故障。
。該盤爲Hot Spare 盤:選中該盤,按鼠標右鍵,執行Delete Hot Spare將此盤從Hot Spare狀態刪除,再將該盤從新設置爲Hot Spare(也可以使用Replace and Rebuild進行)。若是操做失敗,可拔出此盤,隔一分種後再插入磁盤櫃中,重複上述操做;若是仍然失敗,說明該盤可能存在物理故障。
二、單個磁盤Offline狀態
手工設置爲Online;若是不成功,先關閉備機(無控制權),再重啓主機,而後從新設置爲Online;若是還不成功,將盤拔出磁盤櫃,隔一分鐘後從新插入櫃中,再次關閉備機(無控制權),再分別從新啓動主機和備機。
如下兩種狀況先關掉B機,防止系統切換
三、兩個盤 Offline狀態
先將其中一個Online,所另外一個做Rebuild操做,完成後從新啓動主機。
四、一個Offline,一個DDD
將Offline盤設置爲 Online,對DDD盤做Rebuild操做,完成後從新啓動主機。
五、硬盤狀態爲Defunct時,可按下列步驟進行恢復
。打開ServeRaid Manager。
。 選中Defunct的硬盤,按右鍵。
。使用Replace And Rebuild對硬盤數據進行重建。
。按照屏幕提示,須要先將硬盤拔出,而後再插入。
磁盤陣列異常處理
一、當陣列處於Critical時,只需在原來有控制權的機器上對故障硬盤進行Rebuild便可。
二、當陣列處於Blocked時,做以下操做:
。爲了保證對陣列的恢復,先將原來沒有控制權的機器關閉。
。從新啓動有控制權的機器,此時系統提示:按F4——修正錯誤;F5 ——接收當前配置。
。按F4修正當前的錯誤,將Blocked狀態修正爲Critical狀態。
。系統自動對硬盤進行Rebuild。
硬盤Rebuild時的進度顯示ServeRaid Manager中窗口底部的狀態條中
2、MSCS的維護:
MSCS的維護與陣列的維護密切相關,若是陣列工做狀態正常,則MSCS通常狀況下也正常,可是若是Cluster 中的某些服務不能啓動或損壞,MSCS可能發生工做異常。
如下是平常維護操做說明:
一、首先檢查RAID的工做狀態(經過IBM ServeRaid manager檢查);
二、使用Cluster Administators查看每一個服務的工做狀況,全部資源應爲Online;
三、若是某服務或資源處於Offline狀態時,先查明緣由,而後人工設置爲Online;
四、若是磁盤或磁盤陣列工做異常,可按照磁盤陣列的維護進行處理;
注意:此時陣列處於Critical狀態,應防止、禁止切換操做(採起關閉備機的辦法)。
五、若是異外斷電(全部設備所有斷電),啓動時按下列順序啓動系統:
。先啓動陣列櫃;
。陣列櫃加電後,啓動斷電前屬於控制狀態的節點;
。待徹底啓動後,再啓動另一個節點。
雙機系統中存在主域控制服務器,應先啓動主域控制服務器。
六、緊急狀況下關機順序以下:
。首先關閉處於備用狀態的節點;
。再關閉處於控制狀態的節點;
。最後關閉磁盤陣列。
原則上陣列櫃不能掉電,特別是正在對進行陣列的讀寫操做時。
七、在特殊狀況下,Cluster可能不能啓動,通常狀況下可能該節點對磁盤陣列無控制權,此時在命令行方式下執行ipshahto.exe文件,強行取得控制權。
此步驟建議在由技術人員指導下進行。
八、當硬盤正在Rebuild時,不容許切換;正在同步時,儘可能不要切換;