【轉】服務器維護工程師悲慘的一個星期

  2012.5.11 17點40分,接到**科技部的電話,告訴我IBMX346的服務器同時壞了2塊SCSI146G硬盤,如今系統進不去了.問我週六週日可否去修復,和個人領導溝通後明確要週一才能拿到配件×××.php

    週一11點纔拿到2塊SCSI 146G硬盤,匆忙趕去該行,還好不要數據恢復,估計不是很重要的業務,吃完中飯以後,開始從新安裝系統,6塊146G硬盤,5塊作RAID 5,還有1塊作熱備,這種服務器應該有快10年了,還在繼續使用,也不知道領導是怎麼想的,就不怕系統硬件出問題啊? 到下午2點左右,系統也弄好了,剩下的事情就能夠交給他們作了.我正想回公司,匆忙有人跑來告訴我,又有一臺服務器壞了,個人天,今天是怎麼回事啊.
     跑過去一看,又是一臺IBMX346服務器,簡單瞭解了一下狀況,說是在KVM操做的時候,系統沒有反應了,好像死機了,而後就重起了,結果重起以後,發現找不到硬盤了,再仔細一看,發現RAID卡找不到了.這個是生產系統,隨時要用的,讓我趕忙想一想辦法先弄好,還和我說這個沒有備份的,就只有這臺生產機.和該行科技部的人員說,要不從其它同型號不用的服務器上拆塊RAID卡接到這臺服務器上,問我要多少時間,我說1個小時差很少了,他們打個電話問了其它技術人員,詢問把硬盤拆到其它同型號服務器上的可行性,技術上說是行的,只要手動ONLINE就好了.
    他們立刻發通知這臺服務器出故障了,我斷電後,拆開這臺壞的服務器,發現RAID卡上電池都鼓包了,RAID帶電池那端都變形了.從同型號的機子上拆了一塊卡過來,接上PS/2的鍵盤鼠標後,用SERVERRAID 8.4引導,結果出現對話框,好幾個選項,選擇F4從磁盤引導,F10什麼都不改變,結果鍵盤怎麼按都沒有反應,當時覺得是鍵盤有問題,結果壞了一塊鍵盤仍是同樣.這個辦法不行,只好把6塊硬盤按順序標好,接到同型號的不用服務器上(4塊73G硬盤,作RAID 5),裝上光盤,引導以後,發現有4塊硬盤OFFLINE,一個邏輯盤狀態失敗,F10什麼都不改變,光盤引導進入以後,發現0,1,2,3,都是OFFLINE,還有4,5兩塊是REDY狀態,想一想剛纔的電話交流,我也認爲引導以後手動ONLINE就能夠了.
     悲劇就從這個時候開始了,他們給個人是誤導個人提示.我想一想6塊盤作RAID 5,已經有2塊REDY,再弄3塊就能夠引導系統了,因而手動把前面0,1,2三塊盤設置成ONLINE,奇怪了,爲何第3塊不能ONLINE呢?當時也沒有多想,直接重起.結果系統沒有起來,直接提示錯誤的操做系統,我一看壞事了,光盤引導以後,進入後發現前面3塊在作RAID5,已經到了1%,立刻關機,這時候科技部的人也有些擔憂了,問我公司還有沒有人會弄,打個電話問問,我仍是不死心,在試着操做3號盤,顯示在rebuilding,個人天,這個時候一子下明白剛纔手動ONLINE是作什麼了.這個時候經理打電話過來了,問我怎麼回事了,估計已經有人打電話給經理了,我把大概狀況說了一下,經理就說我了,什麼很差操做,去動他的硬盤,我只好說之前他們都要求我幫他們操做過不少次了,從這臺服務器幾塊盤接到其它服務器上直接導入RAID就好了,此次是意外失手.經理說我:常在河邊走,哪有不溼鞋的.一會帶個工程師會過來看看.該行的科技人員問我數據會不會丟失,我用那種不是很確定的語氣和她說,應該不會的.她在那裏雙手祈禱,千萬不要丟失啊.
    關機以後,我理了一下思緒,想一想領導所說的話,若是你提早打電話給我,告訴我要移動硬盤,我確定不會贊成你這麼操做的,拆硬盤到其它服務器會有風險的,仍是高風險.唉,這種事情怎麼說呢,若是操做的話,你好我好你們都好,若是失敗了,責任就所有都是公司的,剛纔問過相關人員了,這個還好不是很是重要的生產系統,若是是生產系統,那就問題大了,不只行裏的人員會受處分,領導也會有麻煩的.相關責任人員弄很差要受刑事責任的.越想越以爲懼怕啊.如今真是的如坐鍼氈啊,就想經理他們早點到.
    經理和工程師很快到了,我和工程師簡單說了一下過程,他說原本你這樣操做風險就是很高的,不過你只要操做當心,通常也沒有什麼大的問題,你如今的問題是屬於2次破壞,你如今的陣列是從後來RAID卡拷貝過來的,這塊卡原來是4塊作RAID5,不是這6塊盤自帶的陣列,若是你選擇從6塊硬盤拷貝到陣列卡,那就沒有什麼問題.若是你把後來那塊的配置信息所有清乾淨了,至關於一塊新盤,就只能讀6塊盤導入陣列,這就沒有問題,如今看看原先這塊卡的陣列信息在不在,若是不在就只有數據恢復了.結果把單把6號盤接到原來的卡上,讀取陣列信息失敗.
    這個時候已經晚上10多點了,從行裏出來,還下着雨,心情不爽啊.坐車回車,到家11點多了.迷迷糊糊中感受沒睡幾個小時就天亮了,次日來到公司以後,網上搜索了一下數據恢復,把狀況和他們溝通了一下,不少數據恢復的人在線都告訴我,數據能夠95%恢復,不過價格也不便宜,3000吧,有的更誇張,北京的工程師說上門能夠,飛機實報,3000保密費,5000數據恢復.這讓我又看到了但願.趕忙從行裏把6塊盤拿出來了,拿到指定的數據恢復點.簡單和數據恢復的工程師溝通了一下,說是先要把6塊盤按順序讀到文件裏,而後他們在分析.這6塊盤從下午3點開始弄,一塊盤差很少要80分鐘,最後一塊盤物理上有些問題,讀了很長時間,到晚上12點尚未讀好,實在受不了,就讓它本身讀吧,各自回家,到家都2點了,洗洗睡了,這期間行裏的人也急了,到現場詢問狀況.
    週三,正常時間到了數據恢復那裏,問工程師,能有多少把握,他說須要分析,要我耐心等,大概到了10點的時候,行裏的人也來了,這個時候,狀況有了好的轉變,數據都分析出來了,C盤488個G,D盤195個G,裏面大部分的東西都在,行裏的人急着要SQL的數據庫文件,先拷了這些東西回去.剩下的東西,我準備先拷D盤的東西,到晚上8點的時候,D盤拷完,剩下的C盤拷1個晚上,明天應該差很少了吧.週四過去一看,才拷了10%,暈啊,和行裏再溝通了一下,說是SQL的東西所有要,而後下午行裏又來人了,把須要的東西都拷走,基本到下班,所須要的東西都弄出來了.爲了安全考慮,6個鏡像文件沒有刪除,都行裏確認沒有問題了,再刪數據文件.
     只到此時,好不容易終於鬆了一口氣,幾天來的緊張氣氛在這一刻終於釋放.看看天空,以爲挺藍,心情不錯,看看其它人都以爲親切啊.都說不少時候都是不經一事,不長一智.把它記錄下來,提醒本身時刻當心,千萬不可大意,沒有十足的把握不要操做,否則要創出大禍。
 
相關文章
相關標籤/搜索