單擊返回:自學N-Compass之路
nCompass-解決方案介紹html
1. IT運維的現狀及痛點
業務部門投訴系統不可用,各個部門盤查: 網絡是通的;系統資源正常;應用進程狀態都是正常的;數據庫日誌中也沒有報錯前端
- 運維被動: 80%的故障都是用戶先發現反饋給服務檯後,運維人員才知道
- 架構複雜:系統架構變得愈來愈複雜,問題多,責任界定及排障困難。
- 說不清:系統不可用,各部門,服務商都說不是本身的問題。
- 價值難以體現:不出故障以爲運維沒用,出了故障以爲運維更沒用
2. 運維的發展歷程
3. 智能架構(Dev Ops 及 AI Ops對平臺要求較高)
- 數據接入(流量、日誌、三方數據)-----多源數據統一接入、關聯分析、統一呈現
- 多源數據整合(1000W/S處理能力)-----1000萬/秒的高速處理效率
- 規則庫-----可編輯的分析規則,可針對不一樣類型的數據進行統計分析
- 機器學習/算法(智能基線/警報 、隱患排查/預警、智能分析/定位、 評估報告/建議)----- AI算法的支持,異常檢測,多維主因素分析,預測分析,根因定位
- 動態大屏/場景模塊------可靈活編輯的前端動態Dashboard,基於用戶架構快速實現數據可視化
- 平臺協調------可給予腳本實現多平臺的行爲聯動,AIOps落地
4. 業務可視化平臺搭建的5個步驟
- 業務梳理:真正瞭解你的業務系統狀態(業務之間調用關係,網絡節點/應用節點,端到端監控展現形式)
- 業務可視:全方位、多維度的進行業務可視化(針對網絡的,針對系統的,互聯網出口,專線鏈路,端口流量,可用性等),nCompass經過內置可視化70多種顯示控件。
a. 可視化,看得見,才能管理
b. 運維價值體現
c. 重大事件保障(促銷監控保障)
- 智能監控:創建基於機器學習算法的主動式監控體系(解決常常誤報,常常少報,不夠靈活,不夠全面,不夠預測)
a. 基於機器學習技術,可實現指標的告警基線自動生成,當指標明顯偏離正常運行區間時,可主動發出告警;
b. 基於異常檢測技術,對告警事件進行精細化處理,規避誤報、漏報的現象。
- 知識圖譜:基於AI算法驅動的數據智能分析, 內置智能根因定位的主要算法:
a. 基線偏離算法:基於指標的歷史數據,預測將來數據的區間(上基線,下基線)用於智能告警場景。
b. 異常檢測:檢測數據序列中的離羣點,用於異常檢測/告警場景。使用非監督學習/監督學習結合的算法綜合判斷異常狀況,內置行業海量數據的預測訓練模式;
c. 根因定位算法:使用NEO4J構建分析對象關係圖,提取待分析節點的相關節點機路徑,結合知識庫進行相關性分析,綜合推導異常根因。用於告警或事件分析場景。
d. 多維主因素算法:深度分析數據變化的維度組成狀況,並給出變化貢獻度評分,用於變化或問題的主要因素定位。
e. 預測算法:基於歷史數據預測將來的數據走勢,反映出數據的週期性、趨勢、波動等特性。用於容量規劃、異常預測等場景。根據具體場景的的準確性及性能要求,選擇使用LSYM或ARIMA實現算法。
異常時會收到告警郵件,會通知您「告警對象」「告警內同」「智能分析」「分析建議」「分析報告等」。
nCompass內置的知識圖譜或稱故障場景有, 業務突發/ 性能降低/ 可用性異常/變動比對分析/業務路徑自動梳理/隱患排查。 也可自定義場景。
實時監控 → 基線告警 → 智能分析 → 根因定位 → 報告推送
- 平臺聯動:多平臺的聯動從而實現故障自愈
5. nCompass與傳統網絡監控分析方法對比