信息系統工程師筆記第十九章

第十九章 故障及問題管理
670、故障是系統運行中出現的系統自己問題或任何非標準操做,已經引發或可能引發服務中斷和服務質量降低的事件。
67一、故障處理彿發現故障時爲儘快恢復系統IT服務而採起的技術上或管理上的辦法。
67二、故障的特徵:即影響度(故障影響業務大小程度指標)、緊迫性(評價故障和問題危機程度指標)和優先級(描述處理故障和問題的順序)。
67三、故障管理目標是儘量快地恢復服務級別協議規定的水準,減小故障對業務運營的不利影響,確保最好的服務質量和可用性。
67四、故障管理範圍:硬件及外圍設備故障、應用系統故障、請示服務和操做故障。
67五、硬件及外圍設備故障如主機宕機、設備無端報警、電力中斷、網絡癱瘓、打印機沒法打印等。
67六、應用系統故障包括服務不可用、沒法登陸和系統出現bug。
67七、請示服務和操做故障包括:忘記密碼、未作來訪傳遍。
67八、故障管理流程包括:故障監視、故障調研、故障支持和恢復處理、故障終止,另外還有故障分析定位及故障處理跟蹤。
67九、故障監視包含監視的考慮因素、故障接觸人員、故障緣由分類、監視項目及監視方法。
680、故障監視的考慮因素有:影響度、緊迫性和優先級
68一、故障接觸人員有:故障現場接觸人員、初級支持人員、高級支持人員。
68二、故障緣由分類:對非計劃宕機故障緣由有三類即技術緣由(如硬件,OS,環境因素及災難性事故)、應用性故障(性能問題、應用缺陷Bug及系統應用變動)和操做故障(人爲進行非法操做或錯誤操做)。
68三、實際操做中對非計劃宕機故障緣由有七類:按計劃的硬件、OS維護操做時引發的故障、應用性故障、人爲操做故障、系統軟件故障(OS死機、數據庫故障)、硬件故障(硬盤網卡損壞)、相關設備故障(停電時USB失效)和天然災害(火災等)。
68四、故障調研包括:故障信息蒐集、故障查明和記錄。
68五、故障分析和定位包括故障調查分析和故障定位分析。
68六、中央處理器故障定位:其緣由是集成電路失效(更換電路卡)
687外圍設備故障定位:對外圍設備故障檢測採用脫機檢測和聯機檢測兩種方式,其故障有兩種集成電路失效(更換電路卡)和特殊故障(磁盤盤面損傷、讀寫磁頭位置偏離、打印機打印部位損壞、打印約傳遞機構故障等)。
68八、脫機測試指外設在邏輯上與CPU脫離下對外設運行特定測試程序,進行不含接口部分的功能測試。
68九、聯機測試是測試設備與CPU的接口部位協調關係,還可進行模擬環路測試。
690、故障的基本處理程序是:①計算機發生故障致使系統不能運行時應停機進行臨時性維修②區分是軟件故障仍是硬件設備故障③如是軟件故障,多是系統軟件不能正常運行引發的,或因爭奪資源出現死鎖形成④軟件故障排除方法是採用重啓系統或其餘人工干預手段恢復排除。⑤如是設備性能變差引發的硬件故障,應切換到備用系統,先恢復系統服務⑥使用測試程序檢測故障機各部件,特別是中央處理器和磁盤存儲兩部件,儘快進行故障定位,而後進行後續維修。
69一、主機故障恢復措施:主機故障時一般需啓用系統備份進行恢復,有熱重啓、暖重啓和冷重啓三種。熱啓動服務專門針對客戶暫時的系統故障提升當即恢復可用性的服務。冷重啓服務提供商專門解決長期的系統問題(系統徹底癱瘓)。
69二、熱重啓恢復時間最快,也最難實現,也須要預先備份部件(需保存當前信息),如2N系統。暖重啓也需保存當前信息,當備份部件和現行部件不徹底相同的系統中,更易實現暖重啓。
69三、冷重啓最易實現,但需最長的時間,備份部件只能從初始狀態開始。熱重啓模式時間爲T,暖重啓時間將會是2-3T、冷重啓時間爲10-100T。
69四、系統發生故障,利用數據庫後備副本和日誌文件可將數據庫恢復到故障前的一致性狀態,數據庫故障分爲事故故障、系統故障和介質故障。
69五、事務故障指事務在運行至正常終點前被終止,其恢復措施由系統自動完成,恢復步驟是:①反向掃描日誌文件②對該事務更新損傷執行逆操做③繼續反向掃描日誌文件④如此處理下去直至此事務開始標記。
69六、系統故障是形成系統中止運轉的任何事件,使系統要從新啓動,如特定類型硬件錯誤、操做系統故障、DBMS代碼錯誤、忽然停電等。其恢復由系統從新啓動時完成,恢復子系統撤銷全部未完成的事務並重作全部已提交事務。恢復步驟:①正向掃描日誌文件②反向掃描文件③正向掃描文件。
69七、介質故障也叫硬故障,指外存故障如磁盤損壞、磁頭碰撞、磁場干擾等。恢復方法是重裝數據庫,而後重作已完成事務。步驟是:裝入最新數據庫後備副本、裝入相應日誌文件副本。介質故障的恢復需DBA(數據轉儲的介入)。
69八、網絡故障指線路故障或網絡鏈接問題,需利用備用電話或改變通訊路徑等恢復方法,恢復措施有:雙主幹(輔助網絡承擔數據傳輸任務)、開關控制技術、路由器、通訊中件。
69九、問題是指致使一塊兒和多起故障的潛在的、不易發現的緣由。已知錯誤是一個故障和問題。
700、問題控制過程是把應急措施記錄在問題記錄中,並提供意見和建議。故障控制重在解決故障並提供響應的應急措施。故障管理是儘量恢復服務,而問題管理是要防止再次發生故障。
70一、錯誤控制是解決已知錯誤的一種管理活動。問題預防是在故障發生以前發現解決問題和已知錯誤。
70二、問題管理和控制的目標:①是將由錯誤引發的故障和問題對業務的影響降到最低②找出故障和問題的緣由,防止再次發生與之有關的故障③實施問題預防。
70三、問題管理流程主要涉及問題控制、錯誤控制、問題預防、管理報告4種活動。
70四、問題控制過程包括:①發現和記錄問題②問題歸類③調查分析④錯誤控制⑤跟蹤和監督⑥問題管理數據庫。
70五、全部緣由未知的故障被稱爲問題,將重複發生的和很是嚴重的故障歸類爲問題。
70六、調查問題的過程是發現故障產生的潛在緣由,更細緻深刻範圍更廣,需專家支持。調查故障的過程是儘快恢復服務。
70七、問題分析方法有四種即Kepner&Tregoe法、魚骨圖法、頭腦風暴法和流程圖法。
70八、Kepner&Tregoe法是一種分析問題的方法,分爲五個階段即定義問題、描述問題、找出產生問題的可能緣由、測試最可能的緣由、驗證問題緣由。
70九、魚骨圖法是分析問題緣由經常使用的方法,是將系統或服務的故障問題做爲結果,以致使發生失效的因素做爲緣由繪出圖形,故魚骨圖法又叫因果圖法和石川圖法。
7十、頭腦風暴法是激發我的創造性思惟的方法,即明確問題、緣由分類和得到解決問題的創新性方案,須遵照暢所欲言、強調數量、不作評論、相互結合四個原則。
7十一、錯誤控制是管理控制併成功糾正已知錯誤的過程,對全部已知錯誤的發現、解決的全過程進行控制。
7十二、錯誤控制流程爲發現和記錄錯誤、評價錯誤、記錄錯誤解決方案、終止錯誤、跟蹤監督問題和錯誤的解決過程五個部分。
71三、問題預防的流程包括趨勢分析和制定預防措施兩項活動
相關文章
相關標籤/搜索