智能運維 | 解放程序員,一個工具就能鎖定程序故障(下)

在上一篇《智能運維 | 解放程序員,一個工具就能鎖定程序故障》文章中我們主要介紹了一種在服務發生故障時自動排查監控指標的算法。算法的第一步利用了概率統計的方式估算每個指標的異常分數,第二步用聚類的方式把異常模式相近的實例聚集在一起形成摘要,第三步用ranking的方式向工程師推薦最有可能是根因的摘要。 由於運維場景的特點是數據量大,但是標定很少,生成標定的代價高昂而且容易出錯,所以我們綜合利用了概
相關文章
相關標籤/搜索