服務器RAID磁盤壞道修復實戰

上週在線監控系統nagios發送了一條報警警告短信,內容大致是磁盤陣列錯誤ios

因而乎登錄報警服務器使磁盤陣列檢測工具進行了詳細的檢查,報告顯示數據庫

Media Error Count :2 安全

wKioL1LKY2qgMjG1AADzBR07ros581.jpg

既然是警告也就不是特別嚴重的錯誤,通過與戴爾工程師的確認,是磁盤出現了壞道,因爲是圖片服務器且有備份,暫時沒有去機房處理。服務器

過了兩天又出現了另外一臺MySQL數據庫服務器也發出了一樣的警報,可怕的是經過檢測報告的ide

Media Error Count :24 工具

Other Error Count:2spa

wKioL1LKY3zCZGETAADnGsEVC0I742.jpg

看樣子服務器在今年是硬件故障高發期啊,Dell服務器若是不是由廠家進貨的話,若是你是維護的人員可就要小心了。blog

我說的什麼意思你懂得!圖片


    因而發郵件和總監和開發經理進行溝通,郵件中說了故障的詳細狀況,而且給出了當前的緊急解決措施(其中圖片服務器作了文件的異機備份,數據庫服務器因爲是主從結構,這個沒必要太擔憂,切天天都有備份計劃本地和異地)有一點服務器的磁盤是支持熱插拔的,也就是說不用停機進行磁盤的更換是沒有問題的,可是爲了安全平穩通過溝通一致認爲在晚上比較合適(其實這徹底是沒信心致使的,白天處理其實影響不大,可能就是會致使IO負載高一些),避開了業務高峯和訪問高峯,這樣給咱們解決問題提供了充足的時間。ci

    最讓我放心的是服務器的陣列配置是經過4塊磁盤作的RAID5+hot spare 這樣的配置有一個很大的好處就是: 若是正常的RAID5中的三塊磁盤有任何一塊損壞了,RAID陣列暫時是安全的

若是配置了熱備盤,那麼熱備盤會在RAID陣列中某塊磁盤算壞的時候進行替補,RAID陣列重建。 當損壞的磁盤更換後。 熱備盤會識別到,而後將自身的數據與新替換的磁盤進行數據同步。當數據同步完成以後就會恢復到原來的角色-熱備盤。 好神奇啊:)

     知道了陣列的工做原理也就不用擔憂了,次日晚上按照事先計劃好的方案進行

首先進行重要文件的手工備份以保持備份的最新,圖片,數據庫等備份到異地Ok

而後按照預先的計劃,拔下故障磁盤,當即插入新的磁盤,這個時候,新插入磁盤會閃爍幾秒鐘,這個過程就是主板識別的過程,而後指示一直處於靜止狀態。

這個時候第四塊硬盤也就是熱備盤的數據讀寫燈狂閃,你應該猜到了,熱備已經檢測到有磁盤掉線了,而後就自動加入RAID進行重建,300G的容量大概重建完成用了30分鐘的時間

爲了驗證個人想法,我把圖片服務器進行了重啓而後進入到BIOS裏面的RAID卡配置工具裏面進行查看,這個時候顯示的是熱備盤參與陣列進行重建,而替換的新磁盤狀態是READY

等了大約30分鐘後,RAID重建完成。 替換的新磁盤的狀態立刻就變成了 replacing 。這個過程大概一樣須要30分鐘左右。

在系統中進行檢測磁盤的狀態是 cpoyback。

最後正常的狀態是 熱備盤的角色恢復成熱備模式,陣列完成重建,正常工做。

進入系統從新檢測錯誤消失了

注:以上說道的在系統中檢測的具體工具是:

/opt/MegaRAID/MegaCli/MegaCli64  -PDList -aAll

wKioL1LKY_ziQNtrAADYQdYbcLg815.jpg

wKiom1LKZAnyfL1VAADoBNlS8_o638.jpg

相關文章
相關標籤/搜索