最近容器組在開發雲平臺的監控、報警功能。html
大體的實現策略是:網絡
一、雲平臺頁面上配置告警規則測試
二、Prometheus完成監控數據的聚合spa
三、當Prometheus聚合後的監控數據知足告警規則,觸發釘釘告警設計
一、告警規則配置,通常狀況下,業務服務的服務類型爲deployment。告警規則:Pod內存使用率大於50%htm
二、步驟1中建立告警規則時,會同步在Prometheus上建立一個相同規則的Alert任務blog
三、複製Alert任務的聚合表達式,能夠在Graph中實時查看到內存的佔用狀況教程
四、收到告警通知內存
那麼,是什麼讓內存的佔用忽然增高到90%以上,從而能觸發告警條件的呢?(告警條件:Pod內存使用率大於50%)開發
Chaos Mesh登場了。
Chaos Mesh做爲一個雲原生的混沌工程平臺,提供在 Kubernetes 平臺上進行混沌測試的能力。
Chaos Mesh包括針對Kubernetes上覆雜系統的故障注入方法,並涵蓋了Pod,網絡,文件系統甚至內核中的故障。
Chaos Mesh功能很強大,這裏只用到給Pod注入內存佔用。
步驟以下:
推薦:
https://www.kubernetes.org.cn/7443.html( 混沌網格(Chaos Mesh)的設計和工做原理 )
https://cloud.tencent.com/developer/article/1579651(kubernetes系列教程(二十)prometheus提供完備監控系統)