技本功丨智能監控,在袋鼠雲日誌運用中都經歷了什麼……

圖片描述
做者:大鵬,袋鼠雲日誌團隊後端開發工程師後端

傳統監控範圍小,智能監控效率高,你說到底怎麼用?大鵬給你來支招~架構

圖片描述

傳統監控是經過對監控項設置一個固定值(閾值),當監控項指標超過這個閾值時就通知人們關注這個指標項。傳統監控通常適用於必定範圍波動的業務指標:網站

好比磁盤的使用率,CPU的使用率等,當指標超過必定值時就意味着系統可能出現故障,可是遇到波動範圍比較大的場景時;好比某銀行的交易09:00~18:00之間交易量大,在其餘時間交易量可能爲0,工做日交易通常,非工做日交易劇增;好比某網站的點擊量在白天很大,在深夜點擊量可能爲0,若是使用傳統監控對上面的場景進行指標監控,每每不能很好的反映系統和業務的狀態,產生不少誤報的狀況,增長人工成本,並且甚至會讓人們對告警產生麻木,不信任感。spa

技術架構 日誌

圖片描述

模型訓練器:雲日誌以固定頻率採集的業務指標造成時間序列,輸送到模型訓練器中,模型訓練器有一系列的數學模型組成(可動態添加),每一個模型都獲得預測值,觀察值與預測值以前存在的偏差,對比偏差咱們將獲得一個與業務最匹配的數學模型。利用這個訓練出的最佳模型,輸入將來時間點,獲得預測值,繪製將來業務圖。圖片

異常檢測器:訓練的數學模型預測的值與實際的觀察值存在必定的偏差,這個殘差系列輸送到異常檢測器中,異常檢測器也是由一系列的數學模型組成(可動態添加),模型檢查的偏差點與業務的異常點最匹配的模型將做爲異常檢測模型,將後續檢測出的異常點發送給預警系統。後端開發

時間序列建模 
採集的時間序列數據並不是是散亂,毫無規律的一組數據,它每每伴隨業務的變化而變化,有的具備很強的週期性規則,有的具備相對平滑的趨勢,咱們須要利用對應的數學模型來擬合,一下是咱們經常使用的幾種數學模型。開發

圖片描述

對不一樣特徵的時間序列,不一樣的數學模型所計算出的偏差也大相徑庭,咱們從如下列表的指標來衡量這些數學模型的匹配度。數學

圖片描述

在通過以上指標衡量預測模型的優劣後,我獲得最契合業務的擬合曲線,獲得最佳的訓練模型。而後輸入將來時間點獲得那個時間點的預測值,而後繪製出預測曲線。產品

異常檢測

在預測出將來時間點的數據後,如何檢測這個業務數據是否異常,咱們也有對應的異常檢測模型,以下表所示:

圖片描述

將殘差指標用以上模型計算以後,與過去的業務異常點進行對比,選擇最接近的異常檢測模型,做爲後續的異常檢測,當模型檢測數數據異常時,即時發送預警給巡檢員,防患於將來。

雲日誌裏說乾坤,日誌分析真有用,監控告警樣樣行,爆炒產品來祭天。趕忙動手來參加吧~

大鵬講堂,下次見~

相關文章
相關標籤/搜索