運維監控系統 PIGOSS BSM 爲銀行運維監控提供全力保障

IT運維服務在銀行信息化建設和運行中的核心地位,而定量、實時的交易數據、事件和性能指標成爲判斷信息系統安全運行狀態的主要依據。所以,進行銀行業IT運維監控指標體系研究與構建,創建IT統一運維監控指標體系相當重要。數據庫

從信息系統期理論出發,信息系統大體分爲規劃與設計、開發與測試(或購買)、實施、運維管理與持續改進五個階段。而前三個階段從時間角度看,只佔整個週期的20%,其他時間基本上是對其進行運行維護。這就決定了IT運維服務在銀行信息化建設和運行中的核心地位,而定量、實時的交易數據、事件和性能指標成爲判斷信息系統安全運行狀態的主要依據。安全

1、IT運維監控指標體系研究的背景和意義服務器

1.業務發展的客觀須要網絡

爲了充分發揮運維監控的預警做用,逐步提高各種運維監控指標的覆蓋率和完備率,咱們須要創建一套系統、規範、面向業務服務的運維監控指標體系。在管理層面,該指標體系旨在讓企業管理者花更多的時間在決策上,而不是用於瞭解複雜、繁瑣的IT細節上;從服務定義、服務水平管理、服務監 控、服務診斷的角度,讓管理者一目瞭然;既知足企業要求的服務水平,確保最佳的業務系統表現,又輔助整個企業的業務運營與IT決策。運維

在技術層面,該體系既能夠豐富開發新業務系統時的非業務功能需求,使開發團隊在系統設計階段,就把之後運維階段須要關注的監控指標內嵌到應用系統中,起到 「未雨綢繆」的做用;又能夠在老系統改造過程當中增長指標的監控功能,起到「亡羊補牢」的效果;同時,該指標體系對於運維團隊全面、有效地部署和配置各種運維工具也起到「有的放矢」的指導做用。ide

  1. 監管導向工具

    根據銀監會《商業銀行數據中心監管指引》第二十六條第八款「應集中監控重要信息系統和通訊網絡運行狀態。採用運維監控工具,實時監控重要信息系統和通訊網絡的運行情況,經過監測、採集、分析和調優,提高生產系統運行的可靠性、穩定性和可用性。監控記錄應知足故障定位、診斷及過後審計等要求。」爲了知足上述 要求,迫切須要創建一套切實可行的運維監控指標體系來指導監控和分析工做,促進運維管理工做的系統化和規範化,下降運維風險。性能

2、IT運維監控指標體系的研究測試

在系統資源層面能夠分爲數據庫類、中間件、操做系統類和存儲四大類。其中數據庫類的指標能夠分別反映服務器的運行狀態、實例的運行狀態、會話數、鎖資源和 監聽器的運行狀態。中間件類根據不一樣的使用特性,如業務中間件、消息中間件等,細分爲WAS、Weblogic和MQ三種。操做系統類能夠按照使用環境分 爲Windows、Linux和Unix三種,客觀反映各類主流操做系統的運行狀態。存儲系統類可分爲光纖交換機、光纖交換機端口、存儲系統、XP存儲系 統和光纖鏈路,客觀反映存儲系統端到端的運行情況。優化

在網絡層面按照管理特性可分爲網絡或安全設備的處理器、內存、風扇、溫度、電源、系統、設備端口、運行協議等不一樣緯度客觀反映網絡環境的運行狀況和運行質量。

在機房基礎設施層面能夠按照管理設備種類分爲電量儀、UPS、空調等,反映機房基礎設施的使用狀況和運行質量。

上述領域的監控指標經過標準化的數據採集接口收集整理、分類彙總和關聯分析,進行IT統一運維監控管理,實現了事件管理、性能管理、告警管理、故障分析等風險處置功能。同時還能提升運維管理工做(跑批、備份、版本、維保、值班、資產等)的平常監督和及時提醒功能。

3、IT運維監控指標體系的構建方法

爲了促進監控指標有效落地,充分發揮監控預警做用,需開發和運維團隊積極配合,圍繞逐步優化和完善指標體系開展工做,從指標梳理、指標設置、指標權重計算、指標評估、體系創建五個階段,造成持續優化的閉環工做過程。

1.指標的梳理

各開發和運維團隊須要根據業務特色和系統狀況,結合實際運維工做須要,採用專家經驗法,以調查問卷的方式選取相應的監控指標造成特定的監控指標集
針對性能類指標,指標閾值是衡量應用系統性能容量是否正常、是否須要優化或擴容的量化依據。能夠將閾值分爲基準閾值、關注閾值和告警閾值三種。

基準閾值是指信息系統正常運行狀態下的標準值,即該系統在業務時段,性能容量指標正常運行時的數值。關注閾值是指分析評估信息系統是否須要優化的臨界值, 其數值是在基準閾值的基礎上上浮必定比例,具體比例應根據信息系統的特色而定。告警閾值是指信息系統要進行擴容的臨界值,僅需對關鍵指標設定該類閾值。

理想狀況下,閾值的設置應遵循「基準閾值<關注閾值<告警閾值」的原則;閾值的初始設置可依據系統的運行特性,結合專家經驗而定,在實際使用過程當中,可根據指標監控狀況進行調整。

2.指標的設置

在指標梳理的基礎上,各運維和開發團隊應對監控指標集中每一個指標進行科學的設置,設置內容包含指標採集方式、採集頻率(採樣間隔)、指標數據類型、觸發告 警條件、告警級別、告警描述、指標數據輸出接口類型和字段格式等對於關鍵指標應明確標識,例如在指標名稱前加*號標識。

對於關鍵性能類指標還應明確其閾值的設置,

3.指標權重的計算

在設計指標權重時,各使用部門可使用專業的層次分析法進行定量計算,也可使用一般的專家經驗法進行定性劃分。層次分析法的好處是能夠解決因子分析法有時沒法採集數據的缺陷,且經過指標間的兩兩比較,在肯定多指標的權重時,較他方法而言更可靠和準確。而專家經驗法在評判權重時相對簡單,但缺點是因指標太多,沒法綜合判斷致使的指標權重不許確,須要後期持續優化。

4.指標的評估

實際運維工做中,在充分發揮各種監控指標用途、又不影響正常的業務生產活動時,爲了推進運維管理質量的提高,須要遵循SMART原則對指標進行評估。即:S表明具體(Specific),是指監控指標要有針對性,不能籠統;M表明可度量(Measurable),是指監控指標是可量化的,驗證指標的數 據或信息是可獲取到的;A表明可實現(Attainable),是指監控指標能夠經過現有技術手段或工具採集到的;R表明相關性(Relevant),是 指監控指標與其餘指標存在邏輯上的相關性;T表明時限性(Tine_bound).是指監控指標的獲取要有時間週期的限制。

5.指標體系的肯定。通過上述過程,明確了哪些指標須要監控,指標之間的層次和依賴關係,重要程度等信息。經過這些信息,就能夠清晰地構建一個層次化的指標體系

4、小結

創建IT運維監控指標體系是提高運維管理、ITIL落地實施中最爲基礎,也是最重要的環節。從此咱們對於系統運行健康情況的判斷,不只能夠像中醫同樣的「望、聞、問、切」,還能夠像西醫同樣的「×××、化驗、作CT、專家會診、打疫苗和預防宣傳」。從而讓「定量分析」與「定性判斷」相結合,「運維經驗」 與「實時數據」相結合,「前期開發」與「後期運維」相結合,打通系統開發和運維管理工做界面,使IT統一運維監控管理不只爲防範運維風險提供及時預警和綜 合分析功能,同時也爲優化應用系統性能提供了詳實和科學的參考依據。

相關文章
相關標籤/搜索