上週在線監控系統nagios發送了一條報警警告短信,內容大致是磁盤陣列錯誤ios
因而乎登錄報警服務器使磁盤陣列檢測工具進行了詳細的檢查,報告顯示數據庫
Media Error Count :2 安全
既然是警告也就不是特別嚴重的錯誤,通過與戴爾工程師的確認,是磁盤出現了壞道,因爲是圖片服務器且有備份,暫時沒有去機房處理。服務器
過了兩天又出現了另外一臺MySQL數據庫服務器也發出了一樣的警報,可怕的是經過檢測報告的ide
Media Error Count :24 工具
Other Error Count:2spa
看樣子服務器在今年是硬件故障高發期啊,Dell服務器若是不是由廠家進貨的話,若是你是維護的人員可就要小心了。blog
我說的什麼意思你懂得!圖片
因而發郵件和總監和開發經理進行溝通,郵件中說了故障的詳細狀況,而且給出了當前的緊急解決措施(其中圖片服務器作了文件的異機備份,數據庫服務器因爲是主從結構,這個沒必要太擔憂,切天天都有備份計劃本地和異地)有一點服務器的磁盤是支持熱插拔的,也就是說不用停機進行磁盤的更換是沒有問題的,可是爲了安全平穩通過溝通一致認爲在晚上比較合適(其實這徹底是沒信心致使的,白天處理其實影響不大,可能就是會致使IO負載高一些),避開了業務高峯和訪問高峯,這樣給咱們解決問題提供了充足的時間。ci
最讓我放心的是服務器的陣列配置是經過4塊磁盤作的RAID5+hot spare 這樣的配置有一個很大的好處就是: 若是正常的RAID5中的三塊磁盤有任何一塊損壞了,RAID陣列暫時是安全的
若是配置了熱備盤,那麼熱備盤會在RAID陣列中某塊磁盤算壞的時候進行替補,RAID陣列重建。 當損壞的磁盤更換後。 熱備盤會識別到,而後將自身的數據與新替換的磁盤進行數據同步。當數據同步完成以後就會恢復到原來的角色-熱備盤。 好神奇啊:)
知道了陣列的工做原理也就不用擔憂了,次日晚上按照事先計劃好的方案進行
首先進行重要文件的手工備份以保持備份的最新,圖片,數據庫等備份到異地Ok
而後按照預先的計劃,拔下故障磁盤,當即插入新的磁盤,這個時候,新插入磁盤會閃爍幾秒鐘,這個過程就是主板識別的過程,而後指示一直處於靜止狀態。
這個時候第四塊硬盤也就是熱備盤的數據讀寫燈狂閃,你應該猜到了,熱備已經檢測到有磁盤掉線了,而後就自動加入RAID進行重建,300G的容量大概重建完成用了30分鐘的時間
爲了驗證個人想法,我把圖片服務器進行了重啓而後進入到BIOS裏面的RAID卡配置工具裏面進行查看,這個時候顯示的是熱備盤參與陣列進行重建,而替換的新磁盤狀態是READY
等了大約30分鐘後,RAID重建完成。 替換的新磁盤的狀態立刻就變成了 replacing 。這個過程大概一樣須要30分鐘左右。
在系統中進行檢測磁盤的狀態是 cpoyback。
最後正常的狀態是 熱備盤的角色恢復成熱備模式,陣列完成重建,正常工做。
進入系統從新檢測錯誤消失了
注:以上說道的在系統中檢測的具體工具是:
/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aAll