DBA日記:一次reboot致使的嚴重失誤

 

              昨天下午,一現場要添加RAC節點,db1節點正常運行,添加db2節點;在db2上作了安裝的一些配置後,須要reboot,數據庫

因而直接就reboot;糟糕,這條命令錯誤地執行在db1上了,致使現場數據庫直接停了。當時覺得一下子db1就能重啓了,可是,服務器

等了30分鐘,db1也ping不通;聯繫現場協助重啓服務器,現場告知:服務器一直重啓中,都沒機會登陸系統。暈死!spa

後來嘗試拔掉網線等操做,在某一次中,居然有短暫的10分鐘能夠登陸了,直接把crs的自啓動 disabled,防止因爲這個緣由致使操作系統

服務器一直重啓。但一會後,仍是不斷重啓中。3d

 

曾經嘗試按這篇文章(http://hi.baidu.com/xulianboo/item/943d5c114381524a3a176e9a)進行了排查,也不行。事件

 

       最後沒有辦法,協商的結果是,把db1從新安裝系統,而後從新安裝RAC,用rman備份恢復。現場打算在db1安裝操做系統時,it

發現因爲硬件有問題,仍是反覆重啓,安裝都沒辦法進行。方案改成,先在db2上安裝單機數據庫,用備份作RAC到單機的恢復。登錄

 

      爲此,今天折騰了一天,雖然最終搞好了,但心太累!配置

      

     雖然這個問題最終沒形成重大後果,但該問題對我從此DBA工做具備深入意義:要深入思考一下,之後如何防止相似事件。硬件

相關文章
相關標籤/搜索