OpenMLDB在AIOPS領域關於交易系統異常檢測應用實踐

交易系統異常檢測業務背景

今天分享OpenMLDB在aiops領域應用案例。交易系統做爲大部分企業的核心繫統,爲了保證其持續穩定運行,其健康程度成爲了運維健康的核心指標,今天主要分享經過交易成功率和tps兩個指標來自動檢測交易系統是否異常,指標具體定義git

  1. 交易成功率,統計每10秒爲一個週期的交易成功的比例
  2. tps,統計每10秒的平均tps

交易系統異常檢測業務架構


整個檢測步驟分爲github

  1. 交易系統週期(每10s)產生tps交易量和成功率統計數據
  2. 統計數據寫入數據庫,而後作一次算法模型推理,存入推理結果
  3. 完成推理後,進行一次規則判斷決策是否進行報警

交易系統異常檢測系如何處理系統抖動問題

由於交易系統,可能由於各類問題出現抖動,哪些抖動須要運維人員感知,哪些抖動可讓系統吞掉,須要有必定靈活性來解決這些問題,而整個異常檢測系統是從如下兩個方面解決這些問題算法

  1. 多種算法聯合推理,每一個算法都進行推理得出結果作加權處理,權重越大,可行度越高
  2. 人肉制定決策規則,根據人肉經驗判斷是否告警,好比查看最近6次推理結果,若是6次中有5次權重都大於某個值則觸發報警

基於OpenMLDB的交易異常檢測的系統架構

面向交易系統異常檢測架構挑戰數據庫

  1. 高實時性,須要異常檢測快速決策出是否有異常,下降損失
  2. 算法模型自由,讓數據科學家能夠充分發揮數據價值,提高決策效率,這個也是OpenMLDB核心優點,讓開發一個機器學習應用很是低門檻,達到模型自由
  3. 系統容量,可以支持每一年10倍監控對象容量增加

關於OpenMLDB

OpenMLDB是一個面向機器學習應用提供正確、高效數據供給的開源數據庫。除了超過10倍的機器學習數據開發效率的提高,OpenMLDB也提供了統一的計算與存儲引擎減小開發運維的複雜性與整體成本。架構

歡迎你們參與到https://github.com/4paradigm/OpenMLDB 社區中運維

相關文章
相關標籤/搜索