磁盤陣列及MSCS的維護

時間 2020-01-08

標籤磁盤陣列 mscs 維護简体版

原文原文鏈接

詳細描述本人在使用IBM磁盤陣列及MSCS的平常維護方法，並對可能出現的問題說明了解決方法。ios

1、磁盤陣列的維護服務器

基本知識ide

一、陣列的四種主要狀態：工具

。Online（在線）：Cluster中有控制權的節點的陣列狀態。ui

。Offline（脫機）：Cluster中無控制權的節點的陣列狀態，或有控制權，但處於脫機狀態。spa

。Critical（臨界狀態）：在Cluster中，處於此狀態的陣列不容許進行切換，必須在原來有控制權的機器上對陣列進行恢復，即進行Rebuild或其它恢復操做。命令行

。Blocked（阻塞狀態）：只出如今RAID0級別中。在Cluster中，處於此狀態的陣列不容許進行切換或讀寫操做，必須在原來有控制權的機器上對陣列進行恢復。ip

二、磁盤的兩種主要狀態：資源

。Online（在線）：硬盤燈爲綠色或指示燈不亮（與陣列櫃型號有關）。此時陣列的狀態爲Online。同步

。 Defunct（非在線、失效）：硬盤燈爲紅色。此時陣列的狀態爲Offline、Critical或Blocked。

三、每次切換後，磁盤陣列都會進行一次數據的同步，此時硬盤燈出現有規則的閃爍，持續時間大概爲2小時左右（與陣列容量有關）。同時仍然能夠進行其它操做，可是必定不能斷電或進行熱插拔操做，不然陣列信息將丟失。

四、硬盤的Firmware版本查看：

在ServeRaid Manager的物理磁盤組中，點擊要查看硬盤，屏幕上將顯示該硬盤的的Firmware版本號。

說明：版本要求爲1.09（或S96E）以上。

五、陣列卡的Firmware及Bios版本查看：

在ServeRaid Manager中，點擊要查看的控制卡，屏幕上將顯示該陣列卡的Firmware 及Bios版本號。

說明：Firmware版本應爲3.70以上、 Bios版本應爲4.0以上。

現象觀察

一、查看陣列櫃的前面板的狀態燈提示

通常陣列櫃中硬盤有兩個指示燈，一個爲狀態燈(紅），一個爲硬盤讀寫指示燈（綠）。

。若干磁盤的綠燈不規則閃爍表示爲對該盤當前有讀寫操做（此時綠燈較亮），陣列爲Online狀態；

。所有磁盤的綠燈規則閃爍表示陣列做同步操做（此時綠燈較暗），陣列爲Online狀態；

。磁盤的綠燈全滅表示當前無操做，陣列處於Online狀態；

。單個硬盤亮紅燈表示此盤狀態爲DDD（不可用）或OffLine；

。某個硬盤綠燈及桔黃燈交替規則閃爍表示該盤正在Rebuild；

。兩個以上硬盤亮紅燈時表示陣列櫃已壞，Cluster 必然當機。

二、經過ServeRaid Manager管理工具查看

在有控制權的節點啓動ServeRaid Manager。

。控制器、邏輯盤處於OK狀態；

。構成陣列的物理硬盤處於Online狀態（若是存在Hot Spare盤，可看到本機的Hot Spare盤狀態爲Hot Spare，另外一節點的Hot Spare盤狀態爲Ready）；

。若是存在Hot Spare 硬盤，則在Hot Spare 菜單中能夠找到該硬盤；

。若是某物理硬盤狀態爲DDD，說明該盤已不可用，須要修復或替換；

。若是某塊物理硬盤狀態爲Offline，表示該盤爲脫機狀態（未損壞）；

。在RAID 一、RAID 1E、RAID 5及RAID 5E 中若是某一硬盤狀態爲DDD或Offline，則陣列或邏輯盤狀態爲Critical，即臨界狀態；

。在RAID 0 中，若是某一硬盤狀態爲DDD或Offline，則陣列或邏輯盤狀態爲Blocked,即阻塞狀態，此時對硬盤不能進行任何操做，等待恢復完後，手工將Blocked 狀態設爲UnBlocked狀態；

說明：無控制權的節點陣列中的磁盤狀態爲Defunct（Hot Spare盤爲正常）。

磁盤異常狀態處理

要求主機對磁盤陣列擁有控制權。

一、單個磁盤DDD狀態，此時禁止Cluster切換（可關閉備機）。

說明：DDD狀態並不必定表示硬盤物理故障，根據該盤的使用狀況，有以下處理方法：

。該盤做爲Array磁盤時，而且該節點存在Hot Spare盤：當該盤失效時，Hot Spare 盤自動完成接管，陣列自動進入Rebuild狀態，同時該盤狀態轉爲Hot Spare。若是沒有自動Rebuild，須要人工執行Rebuild 操做，完畢後，將該盤設置爲Hot Spare狀態。若人工Rebuild操做失敗，可拔出此盤，隔一分鐘後再插入磁盤櫃中，重複上述操做；若是仍然失敗，說明該盤可能存在物理故障。

。該盤做爲Array磁盤時，節點無Hot Spare 盤；選中該盤，按鼠標右鍵，執行Rebuild操做，若操做失敗，可拔出此盤，隔一分鐘後再插入磁盤櫃中，重複上述操做；若是仍然失敗，說明該盤存在物理故障。

。該盤爲Hot Spare 盤：選中該盤，按鼠標右鍵，執行Delete Hot Spare將此盤從Hot Spare狀態刪除，再將該盤從新設置爲Hot Spare(也可以使用Replace and Rebuild進行）。若是操做失敗，可拔出此盤，隔一分種後再插入磁盤櫃中，重複上述操做；若是仍然失敗，說明該盤可能存在物理故障。

二、單個磁盤Offline狀態

手工設置爲Online；若是不成功，先關閉備機（無控制權），再重啓主機，而後從新設置爲Online；若是還不成功，將盤拔出磁盤櫃，隔一分鐘後從新插入櫃中，再次關閉備機（無控制權），再分別從新啓動主機和備機。

如下兩種狀況先關掉B機，防止系統切換

三、兩個盤 Offline狀態

先將其中一個Online，所另外一個做Rebuild操做，完成後從新啓動主機。

四、一個Offline,一個DDD

將Offline盤設置爲 Online,對DDD盤做Rebuild操做，完成後從新啓動主機。

五、硬盤狀態爲Defunct時，可按下列步驟進行恢復

。打開ServeRaid Manager。

。選中Defunct的硬盤，按右鍵。

。使用Replace And Rebuild對硬盤數據進行重建。

。按照屏幕提示，須要先將硬盤拔出，而後再插入。