四節點組成的proxmox VE超融合集羣,連續運行時間超過500天。每一個節點除了系統盤而外,由四個單獨的2.4T 10000轉sas盤作ceph osd。
服務器
監控發現,其中一個節點的一塊硬盤處於down的狀態,嘗試修復未得到成功,登陸系統,發現系統日誌有大量的IO錯誤,由此判斷,必定是硬盤物理損壞。再通知機房,請值班技術幫忙,現場查看硬盤指示燈狀態,有一塊硬盤常亮紅燈,確認故障與判斷一致。ide
因爲是在線系統,服務不容許中止,這是最基本的要求。很是幸運的是,proxmox VE去中心化超融合集羣,在保證集羣得以維持的狀況下,能夠關掉任意一臺或者多臺物理服務器(別的超融合平臺有控制節點,這個控制節點不能關)。日誌
沒有停機擔心之後,作出以下安排:code
一切準備穩當以後,風高月黑之夜派人潛入機房,待命。按照計劃,進行以下的步驟:blog
Web管理界面,把故障機運行着的虛擬機的ID號記錄下來,而後將其加入到proxmox VE的HA(此高可用與pve集羣不一樣,是創建在pve集羣之上的)。
ip
執行下列命令初始化新更換的磁盤:同步
wipefs -af /dev/sdc
wipefs -af /dev/sdc #sdc爲新更換的磁盤設備名稱虛擬機
ceph osd tree
ceph osd tree
it