IT人員如何化解突發性事故

   

  在IT運維的職業生涯中,若是作爲一個系統運維工程師你要沒遇到幾回大的事故,你都很差意思說作過IT,不少IT運維者最怕的是出問題,但是出問題能鎮定的化險爲夷,不只能夠凸顯你的業務水平,並且能夠鍛鍊你的應變能力和提升你技術能力,有些突發事故的過程能夠說是IT極其寶貴的經驗。服務器

     固然咱們並不指望出現問題,我說的這些問題是指你不可控的一些意外的問題;好比說一臺服務器的無熱盤點raid5壞了一塊硬盤因沒有注意,後面又壞一塊致使系統沒法啓動,這種問題屬於你我的的失誤,這是可控問題;但若是同時壞了兩塊,只說明點背,算是意外問題。好比空調失靈致使機房過熱死機,也算意外問題,好比說機房突然斷電又沒法短時間恢復也算意外問題。微信

     針對這些意外問題,咱們該怎麼作才能作到防微杜漸或者亡羊補牢?網絡

————————————準備篇——————————————運維

一、機房相關信息的準備:
電力:UPS啓動關閉操做指南、市電的空開位置標識、ide

機櫃:機櫃佈局圖、內部網絡鏈接圖、外聯網絡鏈接圖佈局

空調:空調性能信息、空調的供電開關說明圖性能

二、服務器類信息準備:spa

服務器的硬件配置表、IP地址表、管理員賬號信息表、關鍵應用服務檢測表、虛擬機和物理服務器對於關係表、服務器啓動順序表code

三、網絡信息orm

防火牆策略說明、核心層和二層交換機鏈接端口表、各交換機登陸管理地址及賬號信息。

四、聯繫人

包含 「設備廠商應急聯繫人、物業關鍵聯繫人、運營商業務經理、IT相關責任人、行政人員「的全部聯繫方式。

五、常見關鍵問題FAQ

以上的信息準備完畢,記得必定要週期性更新喲,不然無用。另外相關信息備份在企業外部例如手機裏,便於隨時隨地可查詢。

————————————監控篇——————————————

一、對全部關鍵設備進行硬件監控。監控軟件儘可能不使用系統的應用層去監控,使用物理接口監控,像HP 的ILO監控、IPMI監控、SNMP監控。

二、關鍵服務監控

三、關鍵網絡設備監控

以上監控節點的報警收件人指向相關聯繫人(IT內部人員),爲避免企業內部監控系統出現異常問題致使沒法及時報警,建議將監控在託管服務器上作冗餘監控。

—————————————流程篇—————————————

任何事故都有其緊急程度,根據應用的重要性劃分等級。

相關流程以下,靈活應用。

根據監控狀態判斷故障節點---先肯定事故等級性及影響範圍----肯定事故解決的時間---郵件或電話通知相關受影響人--告知IT內部人員應急響應方案---根據準備篇收集的信息聯繫相關人或自行解決問題----解決完畢告知相關受影響人----對事故來龍去脈進行總結性彙報給領導

    總之,IT人要不打沒準備的仗,問題來了不要怕,冷靜看待,見招拆招;固然若是您全部的關鍵應用的都有冗餘備份能夠順利切換,我想你能夠高枕無憂,畢竟能作到自動化恢復那將是極好的。


微信號:ithelpyou ,請關注我,我將給您提供不同的IT幫助。


wKiom1eWMYTj0Kc7AACaabycW1c460.jpg-wh_50

相關文章
相關標籤/搜索