1、Metrics簡介
應用監控系統Metrics由Metrics.NET+InfluxDB+Grafana組合而成,經過客戶端Metrics.NET在業務代碼中埋點,Metrics.NET會把收集到數據存儲在InfluxDB數據庫中,而後經過Grafana來展現監控數據。其中,InfluxDB服務端部署的版本號是1.3.1,Grafana部署的版本號是4.0.1。下面將結合這3個工具來介紹如何實現對應用的監控。
Metrics.NET移植自Java的metrics,它是一個給CLR提供度量的工具包。在業務代碼中埋點Metrics.NET代碼後,就能夠方便地對各技術指標、業務指標進行度量,如:共花多長時間完成某方法的執行、某方法在被執行的過程當中共出現過幾回異常、某時間段內共下多少訂單量。Metrics.NET共提供5種度量類型:Gauge、Counter、Meter、Histogram以及Timer。其中Meter和Histogram這兩種度量類型目前能夠徹底知足筆者所在公司的度量需求,因此,下面只介紹了Meter和Histogram這兩種,另外3個如有興趣可自行抽空去了解。
2、埋點Metrics.NET的方法
首先爲須要收集Metrics.NET監控數據的業務項目引用Metrics.dll。
而後,在項目中的App.config/Web.config文件中加上以下配置信息:
1 <add key="AppID" value="150106"/>
2 <add key="Metrics.DBUri" value="http://139.198.13.12:4126/write"/>
3 <add key="Metrics.UserName" value="Arch"/>
4 <add key="Metrics.Password" value="Arch"/>
5 <add key="Metrics.Database" value="ArchDB"/>
一、Meter
Meter用於度量TPS(每秒處理的請求數)。
示例:模擬統計成功下單量、下單金額、失敗下單量。
調用Meter對象的Mark()方法:
1 static void CreateOrder()
2 {
3 try
4 {
5 // 省略關於下單的業務邏輯代碼
6 //......
7
8 // 分別統計成功下單量和下單金額,統一寫到MetrisKey中
9 MetricsKey.OrderCount.Mark();
10 if (n % 2 == 1)
11 {
12 MetricsKey.OrderMoneyCount.Mark("BuyerA", n);
13 }
14 else
15 {
16 MetricsKey.OrderMoneyCount.Mark("BuyerB", n);
17 }
18 }
19 catch (Exception)
20 {
21 // 統計失敗下單量,統一寫到MetrisKey中
22 MetricsKey.OrderErrorCount.Mark();
23
24 // 省略異常處理代碼......
25 }
26 }
2、Histogram
Histogram用於度量流數據中Value的分佈狀況,它不只使您能像Meter同樣測量出TPS ,還能測量出最小值、最大值和平均值。使用場景如:統計服務器的延遲時間、統計某方法共執行多長時間。
示例:模擬統計航班查詢引擎方法的耗時狀況。
調用Histogram對象的Update()方法:
1 private readonly Histogram searchFlightTime = MetricsHelper.Histogram("MetricsDemo.SearchFlightTime", Unit.Custom("ms"));
2
3 static void SearchFlight()
4 {
5 Stopwatch stopwatch = Stopwatch.StartNew();
6
7 // 模擬關於航班查詢的業務邏輯的代碼
8 Random random = new Random((int)DateTime.Now.Ticks & 0x0000FFFF);
9 var n = Random.Next(100);
10 Thread.Sleep(n);
11
12 stopwatch.Stop();
13
14 // 統計航班搜索耗時
15 searchFlightTime.Update(stopwatch.ElapsedMilliseconds);
16 }
3、Grafana配置
一、儀表盤設置
點擊位於下圖上方的Home圖標,會下拉彈出Dashboard列表:
點擊位於上圖下方的Create New按鈕,會進入到新建面板Panel頁面,點擊位於下圖上方的保存圖標按鈕:
在彈出的Save As...對話框中輸入Dashboard名稱,如Arch.OrderCountDemo,而後點擊Save按鈕進行保存:
二、面板(Panel)設置
點擊上面建立的【Arch.OrderCountDemo】Dashboard圖標,進入屬於這個Dashboard的面板(Panel)頁面:
點擊位於上圖的ADD ROW按鈕,進入下圖。其中,Graph表示以圖表(有折線圖、柱狀圖、散點圖、梯形圖)形式展現數據、Singlestat表示單個統計、Table表示以表格形式展現數據、PieChart表示以餅狀圖形式展現數據。這幾種統計類型的面板設置方式相似,本文將以Graph爲例進行說明。
2.一、數據設置
點擊上圖的Graph圖標建立圖表:
點擊上圖的Panel Title,在彈出菜單中單擊Edit打開Panel編輯界面,即進入Metrics選項卡面板。
關於Meter的查詢數據語句配置通常以下:
關於Histogram的查詢數據語句配置通常以下:
其中,fill()通常被設爲null,但當查詢時間範圍很大時(如1天),請用fill(0);另外,$appId、$serverIP、$summarize這3個變量是在模板(Templating)中設置,請看第3小節的介紹。
2.二、樣式配置
2.2.一、General選項卡用來設置Panel樣式
主要用來設置Panel的標題:
2.2.二、Axes選項卡用來設置座標軸
Label表示設置左側Y軸旁顯示什麼說明文字,另外,Unit表示設置左側Y軸數字的單位:
2.2.三、Legend選項卡用來設置顯示樣式
2.2.4 Display選項卡用來設置圖表樣式
Draw options子選項卡用來設置圖表顯示效果:
Draw Modes:Points表示設置是否在圖中顯示散點;
Mode Options:Fill表示設置填充度、Line Width表示設置圖表線的粗細、Point Radius表示設置圓點半徑的長度;
Stacking & Null value:Null value選擇null as zero時表示設置當該時間節點在InfluxDB中沒有記錄時,用0替代。
三、模板(Templating)設置
打開Templating設置頁面:
新建變量:
新建serverIP變量:
(在Query文本框處,輸的是:SHOW TAG VALUES WITH KEY = "ServerIP")
新建summarize變量,其中Values值能夠自行添加或刪除,值與值之間用英文狀態的逗號隔開:
新建adhoc變量:
四、設置Time Range
一個Dashboard中,除了須要顯示實時監控數據外,有時還須要顯示歷史的監控數據,主要目的是要經過對歷史監控數據的觀察來預測將來的業務量走勢,那麼須要重寫Time Range,即須要在Time range選項卡中進行設置。
例如,在一個Panel中須要顯示近24小時的歷史監控數據,那麼請在這個Panel中加上以下配置:
五、告警設置
在Grafana當前版本(4.0.1)中,告警目前僅支持Graph類型的面板,在未來版本會添加Singlestat和Table類型面板的支持。另外,因爲告警查詢語句不支持template變量,因此最好是對不使用template變量的Panel才設置告警。
5.一、設置通知規則
在左側菜單中選擇Alerting -> Notifications進入通知列表頁:
點擊New Notification按鈕新建一個通知:
在Name文本輸入框中,輸入通知名稱,類型Type選擇email。設置完成以後單擊Save按鈕,而後點擊Send Test按鈕測試下通知是否可以發送成功。
5.二、設置告警規則
進入須要添加告警的Panel的編輯界面,轉到Alert選項卡,點擊Create Alert按鈕,進入Alert Config子選項卡界面進行配置,其中Evaluate every表示設置執行頻率,Conditions表示配置什麼時候告警的條件(WHEN是選擇聚合函數的地方,OF用來設置時間段,IS ABOVE或者IS BELOW用來設置閾值)。
對Alert Config子選項卡界面的配置參考以下:
而後在Notifications子選項卡界面中配置通知規則:
5.三、暫停告警操做
在左側菜單中點擊Alerting -> Alert List進入告警規則列表頁,點擊暫停圖標按鈕就能夠中止該告警:
4、其它說明
二、一個MetricsName對應一張數據表,建議明肯定義MetricsName;
三、提供的Metrics.dll基於0.4.8的版本增長了Unit Count的返回,且適用於.NET Framework 4.5及其以上版本。
5、總結Metrics的價值
一、能夠實時監控線上程序運行狀況,造成閉環、不斷改進;
二、能夠預測程序將來大體走向;
三、能夠及時發現故障,消滅在用戶反饋以前;
四、Metrics.NET出現異常不影響業務流程;
五、可設置自動報警,即時發送郵件、短信、微信(經過API)。
6、Demo下載及更多資料