當Prometheus遇到混沌工程

1、背景

最近容器組在開發雲平臺的監控、報警功能。html

大體的實現策略是:網絡

一、雲平臺頁面上配置告警規則測試

二、Prometheus完成監控數據的聚合spa

三、當Prometheus聚合後的監控數據知足告警規則,觸發釘釘告警設計

2、過程

一、告警規則配置,通常狀況下,業務服務的服務類型爲deployment。告警規則:Pod內存使用率大於50%htm

二、步驟1中建立告警規則時,會同步在Prometheus上建立一個相同規則的Alert任務blog

三、複製Alert任務的聚合表達式,能夠在Graph中實時查看到內存的佔用狀況教程

四、收到告警通知內存

3、Chaos Mesh

那麼,是什麼讓內存的佔用忽然增高到90%以上,從而能觸發告警條件的呢?(告警條件:Pod內存使用率大於50%)開發

Chaos Mesh登場了。

Chaos Mesh做爲一個雲原生的混沌工程平臺,提供在 Kubernetes 平臺上進行混沌測試的能力。

Chaos Mesh包括針對Kubernetes上覆雜系統的故障注入方法,並涵蓋了Pod,網絡,文件系統甚至內核中的故障。

Chaos Mesh功能很強大,這裏只用到給Pod注入內存佔用。

步驟以下:

 

 

推薦:

https://prometheus.io/(官網)

https://chaos-mesh.org/ (官網)

https://www.kubernetes.org.cn/7443.html( 混沌網格(Chaos Mesh)的設計和工做原理 )

https://cloud.tencent.com/developer/article/1579651(kubernetes系列教程(二十)prometheus提供完備監控系統)

相關文章
相關標籤/搜索