一、監控指標服務器
1)qps,pv性能
2)響應時間。大多數狀況下,能夠用一段時間內全部調用的平均耗時來反映請求的響應時間。但它只表明了請求的平均快慢狀況,有時候咱們更關心慢請求的數量。P99 = 500ms,意思是 99% 的請求響應時間在 500ms 之內代理
3)錯誤率。錯誤率的監控一般用一段時間內調用失敗的次數佔調用總次數的比率來衡量,好比對於接口的錯誤率通常用接口返回錯誤碼爲 503 的比率來表示接口
4)cpu利用率,io讀寫量,內存,磁盤隊列
二、監控系統原理內存
監控系統主要包括四個環節:數據採集、數據傳輸、數據處理和數據展現消息隊列
1)數據採集:服務主動上報和代理收集io
採樣對系統自己的性能也會有必定的影響,尤爲是採集後的數據須要寫到本地磁盤的時候,太高的採樣率會致使系統寫入磁盤的 I/O 太高,進而會影響到正常的服務調用。最好是能夠動態控制採樣率,在系統比較空閒的時候加大采樣率,追求監控的實時性與精確度;在系統負載比較高的時候減少採樣率,追求監控的可用性與系統的穩定性。監控
2)數據傳輸:原理
UDP 傳輸,這種處理方式是數據處理單元提供服務器的請求地址,數據採集後經過 UDP 協議與服務器創建鏈接,而後把數據發送過去
Kafka 傳輸,這種處理方式是數據採集後發送到指定的 Topic,而後數據處理單元再訂閱對應的 Topic,就能夠從 Kafka 消息隊列中讀取到對應的數據
3)數據處理:
放入es
4)數據展現
數據展現是把處理後的數據以 Dashboard 的方式展現給用戶。數據展現有多種方式,好比曲線圖、餅狀圖、格子圖展現等