從 IT 中斷中學到的最佳監控實踐

時間 2019-11-17

標籤中斷學到最佳監控實踐简体版

原文原文鏈接

每一個運維監控工具，通常要追蹤數十萬個內部性能指標。學會對哪些事件進行告警以及監控確實須要花費想當長的一段時間。由於，並不是全部的指標等級都是一致。所以咱們須要摸索出一套簡單的方法，便於管理全部指標，並且簡單易學。如下爲咱們總結的 Datadog 的一些實踐經驗。html

###監控目標ios

首先咱們應該瞭解咱們爲何你要花費心力實現更好的監控? 如下三點爲總結的監控目標：數據庫

在客戶及老闆覺察以前發現問題服務器
瞭解系統以及應用的運行情況架構
儘量下降你的壓力水平運維

###指標分類工具

在瞭解目標後，應該清楚各個指標的種類。如你的監控工具追蹤了哪些指標 ? 常見的指標有：CPU 使用量，內存使用量，數據庫或 Web 請求。指標的種類多種多樣，可是全部指標均可納入基本的兩大類：工做指標以及資源指標。性能

####工做指標優化

通常來講工做指標有兩大類：網站

工做指標測量系統或應用生產的有價值的事物的量。例如，數據庫每秒返回的查詢數量，Web 服務器每秒發送的網頁數量。由於，數據庫的主要功能在於返回查詢結果，Web 服務器則在於爲網頁提供服務。
應用帶來的經濟效益，好比收入。這種指標能夠直觀地追蹤應用以及基礎架構的可用性，便於瞭解其運行效率，所以更加有用。

####資源指標

資源是用於生產價值所消耗的事物。所以，資源指標用於測量完成某項工做、生產某些內容所消耗的事物的量。

你如果問「數據庫使用了多少 CPU ?」，這種問題每每無益於斷定應用的效用。由於通常的回答是：「 我有足夠的 CPU 」，或者 「 個人 CPU 使用量已經到達極限了 」。

對於內存，磁盤，網頁帶寬等資源的提問也是如此。一般，資源指標會用於容量規劃，而非可用性管理。

###優化監控方案

瞭解了工做指標與資源指標以後，咱們能夠進一步討論最佳實踐方案。

#####1.將關鍵指標分爲工做或資源指標

審視關鍵指標，尤爲是那些是你真正在乎的指標。再將它們歸類爲工做指標或資源指標。

#####2.僅爲工做指標設置告警

分類完成以後（請務必花時間進行分類，這很重要），你須要肯定爲哪些指標設置告警。事實上，你應該僅爲工做指標設置告警。換言之，你應該爲測量系統可用程度的指標設置告警。

不過，給指示應用宕機的首要資源指標設置告警也頗有益。好比，磁盤空間是一種資源指標。然而，若是磁盤空間耗盡了，整個應用就沒法運轉，所以，爲這類指標設置告警也很重要。可是，整體而言，爲資源指標設置告警的狀況很是罕見。

#####3.僅爲可操做的工做指標設置告警

針對上一條最佳實踐的一點修正是：僅爲可操做的工做指標設置告警。換言之，你應該爲能夠採起行動的工做指標設置告警。

例如，對於 Web 服務器而已，可操做的工做指標能夠是每秒內無錯誤服務的網頁數量。這之因此是可操做的工做指標，是由於若是 Web 服務器服務的網頁數量爲零，網站確定再也不運行，而是宕機了。這時候，你必須採起行動了。

沒法操做的工做指標能夠是 Web 服務器每秒服務的 404 頁面數量。該指標之因此沒法操做，是由於其徹底取決於訪客的行爲。若是他們訪問許多不存在的 URL，那麼確定會生成許多 404 頁面。這並非說網站性能很差，而是訪客的行爲超出了預期。所以，你不該該爲不可操做的工做指標設置告警。

#####4.按期回顧檢查指標與告警

第四點，也多是最難堅持的一點，是按期地回顧並檢查指標與告警。你能夠一週一次，兩週一次，或者一個月一次，但請必定要在繁忙的任務表中劃出一些時間，與團隊一塊兒進行回顧。

###回到目標

如今，讓咱們將這些最佳實踐與前文提到的監控目標結合起來。請注意：將關鍵指標分類爲工做指標或資源指標是一切的前提。

#####1. 在客戶及老闆覺察以前發現問題

僅爲工做指標設置告警，能夠避免一些無用的告警，從而達到更好的監控結果。

#####2. 儘量下降你的壓力水平

僅爲可操做的工做指標設置告警，由於你不打算得到沒法控制的告警信息。

#####3. 瞭解系統以及應用的運行情況

按期回顧並檢查指標與告警，能夠對系統的運行情況與性能趨勢有更深入的感知，從而方便性能調優。

經過這些最佳實踐，能夠加強你的監控策略。國內外有不少優秀的監控工具，如 Zabbix 、Nagios 、Datadog 、阿里雲、監控寶、騰訊雲等。此外 OneAlert 是國內首個 SaaS 模式的雲告警平臺，集成國內外主流監控/支撐系統，實現一個平臺上集中處理全部 IT 事件，提高 IT 可靠性。 本文轉自 OneAPM 官方博客

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。