服務器RAID磁盤壞道修復實戰

時間 2019-12-20

標籤服務器 raid 磁盤修復實戰欄目存儲简体版

原文原文鏈接

上週在線監控系統nagios發送了一條報警警告短信，內容大致是磁盤陣列錯誤ios

因而乎登錄報警服務器使磁盤陣列檢測工具進行了詳細的檢查，報告顯示數據庫

Media Error Count :2 安全

既然是警告也就不是特別嚴重的錯誤，通過與戴爾工程師的確認，是磁盤出現了壞道，因爲是圖片服務器且有備份，暫時沒有去機房處理。服務器

過了兩天又出現了另外一臺MySQL數據庫服務器也發出了一樣的警報，可怕的是經過檢測報告的ide

Media Error Count :24 工具

Other Error Count：2spa

看樣子服務器在今年是硬件故障高發期啊，Dell服務器若是不是由廠家進貨的話，若是你是維護的人員可就要小心了。blog

我說的什麼意思你懂得！圖片

因而發郵件和總監和開發經理進行溝通，郵件中說了故障的詳細狀況，而且給出了當前的緊急解決措施（其中圖片服務器作了文件的異機備份，數據庫服務器因爲是主從結構，這個沒必要太擔憂，切天天都有備份計劃本地和異地）有一點服務器的磁盤是支持熱插拔的，也就是說不用停機進行磁盤的更換是沒有問題的，可是爲了安全平穩通過溝通一致認爲在晚上比較合適（其實這徹底是沒信心致使的，白天處理其實影響不大，可能就是會致使IO負載高一些），避開了業務高峯和訪問高峯，這樣給咱們解決問題提供了充足的時間。ci

最讓我放心的是服務器的陣列配置是經過4塊磁盤作的RAID5+hot spare 這樣的配置有一個很大的好處就是：若是正常的RAID5中的三塊磁盤有任何一塊損壞了，RAID陣列暫時是安全的

若是配置了熱備盤，那麼熱備盤會在RAID陣列中某塊磁盤算壞的時候進行替補，RAID陣列重建。當損壞的磁盤更換後。熱備盤會識別到，而後將自身的數據與新替換的磁盤進行數據同步。當數據同步完成以後就會恢復到原來的角色-熱備盤。好神奇啊：）

知道了陣列的工做原理也就不用擔憂了，次日晚上按照事先計劃好的方案進行

首先進行重要文件的手工備份以保持備份的最新，圖片，數據庫等備份到異地Ok

而後按照預先的計劃，拔下故障磁盤，當即插入新的磁盤，這個時候，新插入磁盤會閃爍幾秒鐘，這個過程就是主板識別的過程，而後指示一直處於靜止狀態。

這個時候第四塊硬盤也就是熱備盤的數據讀寫燈狂閃，你應該猜到了，熱備已經檢測到有磁盤掉線了，而後就自動加入RAID進行重建，300G的容量大概重建完成用了30分鐘的時間

爲了驗證個人想法，我把圖片服務器進行了重啓而後進入到BIOS裏面的RAID卡配置工具裏面進行查看，這個時候顯示的是熱備盤參與陣列進行重建，而替換的新磁盤狀態是READY

等了大約30分鐘後，RAID重建完成。替換的新磁盤的狀態立刻就變成了 replacing 。這個過程大概一樣須要30分鐘左右。

在系統中進行檢測磁盤的狀態是 cpoyback。

最後正常的狀態是熱備盤的角色恢復成熱備模式，陣列完成重建，正常工做。

進入系統從新檢測錯誤消失了

注：以上說道的在系統中檢測的具體工具是：