每一個運維監控工具,通常要追蹤數十萬個內部性能指標。學會對哪些事件進行告警以及監控確實須要花費想當長的一段時間。由於,並不是全部的指標等級都是一致。所以咱們須要摸索出一套簡單的方法,便於管理全部指標,並且簡單易學。如下爲咱們總結的 Datadog 的一些實踐經驗。html
###監控目標ios
首先咱們應該瞭解咱們爲何你要花費心力實現更好的監控? 如下三點爲總結的監控目標:數據庫
在客戶及老闆覺察以前發現問題服務器
瞭解系統以及應用的運行情況架構
儘量下降你的壓力水平運維
###指標分類工具
在瞭解目標後,應該清楚各個指標的種類。如你的監控工具追蹤了哪些指標 ? 常見的指標有:CPU 使用量,內存使用量,數據庫或 Web 請求。指標的種類多種多樣,可是全部指標均可納入基本的兩大類:工做指標以及資源指標。性能
####工做指標優化
通常來講工做指標有兩大類:網站
工做指標測量系統或應用生產的有價值的事物的量。例如,數據庫每秒返回的查詢數量,Web 服務器每秒發送的網頁數量。由於,數據庫的主要功能在於返回查詢結果,Web 服務器則在於爲網頁提供服務。
應用帶來的經濟效益,好比收入。這種指標能夠直觀地追蹤應用以及基礎架構的可用性,便於瞭解其運行效率,所以更加有用。
####資源指標
資源是用於生產價值所消耗的事物。所以,資源指標用於測量完成某項工做、生產某些內容所消耗的事物的量。
你如果問「數據庫使用了多少 CPU ?」,這種問題每每無益於斷定應用的效用。由於通常的回答是:「 我有足夠的 CPU 」,或者 「 個人 CPU 使用量已經到達極限了 」。
對於內存,磁盤,網頁帶寬等資源的提問也是如此。一般,資源指標會用於容量規劃,而非可用性管理。
###優化監控方案
瞭解了工做指標與資源指標以後,咱們能夠進一步討論最佳實踐方案。
#####1.將關鍵指標分爲工做或資源指標
審視關鍵指標,尤爲是那些是你真正在乎的指標。再將它們歸類爲工做指標或資源指標。
#####2.僅爲工做指標設置告警
分類完成以後(請務必花時間進行分類,這很重要),你須要肯定爲哪些指標設置告警。事實上,你應該僅爲工做指標設置告警。換言之,你應該爲測量系統可用程度的指標設置告警。
不過,給指示應用宕機的首要資源指標設置告警也頗有益。好比,磁盤空間是一種資源指標。然而,若是磁盤空間耗盡了,整個應用就沒法運轉,所以,爲這類指標設置告警也很重要。可是,整體而言,爲資源指標設置告警的狀況很是罕見。
#####3.僅爲可操做的工做指標設置告警
針對上一條最佳實踐的一點修正是:僅爲可操做的工做指標設置告警。換言之,你應該爲能夠採起行動的工做指標設置告警。
例如,對於 Web 服務器而已,可操做的工做指標能夠是每秒內無錯誤服務的網頁數量。這之因此是可操做的工做指標,是由於若是 Web 服務器服務的網頁數量爲零,網站確定再也不運行,而是宕機了。這時候,你必須採起行動了。
沒法操做的工做指標能夠是 Web 服務器每秒服務的 404 頁面數量。該指標之因此沒法操做,是由於其徹底取決於訪客的行爲。若是他們訪問許多不存在的 URL,那麼確定會生成許多 404 頁面。這並非說網站性能很差,而是訪客的行爲超出了預期。所以,你不該該爲不可操做的工做指標設置告警。
#####4.按期回顧檢查指標與告警
第四點,也多是最難堅持的一點,是按期地回顧並檢查指標與告警。你能夠一週一次,兩週一次,或者一個月一次,但請必定要在繁忙的任務表中劃出一些時間,與團隊一塊兒進行回顧。
###回到目標
如今,讓咱們將這些最佳實踐與前文提到的監控目標結合起來。請注意:將關鍵指標分類爲工做指標或資源指標是一切的前提。
#####1. 在客戶及老闆覺察以前發現問題
僅爲工做指標設置告警,能夠避免一些無用的告警,從而達到更好的監控結果。
#####2. 儘量下降你的壓力水平
僅爲可操做的工做指標設置告警,由於你不打算得到沒法控制的告警信息。
#####3. 瞭解系統以及應用的運行情況
按期回顧並檢查指標與告警,能夠對系統的運行情況與性能趨勢有更深入的感知,從而方便性能調優。
經過這些最佳實踐,能夠加強你的監控策略。國內外有不少優秀的監控工具,如 Zabbix 、Nagios 、Datadog 、阿里雲 、監控寶、騰訊雲等。此外 OneAlert 是國內首個 SaaS 模式的雲告警平臺,集成國內外主流監控/支撐系統,實現一個平臺上集中處理全部 IT 事件,提高 IT 可靠性。 本文轉自 OneAPM 官方博客