以阿里雲的運維大屏爲例。運維
1、重點關注的數量統計,統計實例的運行狀況和節點的運行狀況。(實例就是節點每次到時間了的具體執行的任務)優化
重要的實例數量包括:阿里雲
除了天天要觀察運行的實例數量,咱們還要觀察節點的數量。編碼
具體例子以下圖所示,能夠切換"所有"和"我負責的"blog
2、關注當前調度的任務的總體的運行狀況,獲得一個全局的概覽,通常按天統計資源
總體節點的運行狀況可分爲:開發
運行成功、運行中、運行失敗。im
未運行,其中未運行的緣由包括:上游依賴未運行,資源未到(就是上述的等資源實例)、調度時間未到。d3
和第一個圖同樣,能夠看到運行失敗和等資源實例,不同的是,能夠經過餅圖看到整個任務各個狀況的所佔比例。統計
具體以下圖餅圖所示,這裏的未運行就是上游依賴未運行
3、任務完成狀況的時點圖(折線圖)
觀察當天每一個時點的完成進度,能夠和昨日作對比,也能夠畫其餘歷史平均線。
以下圖所示,該圖是當日累積完成的任務數量
4、資源調度時點圖
上圖是累積完成數量,也能夠作每一個時點各自完成的數量,查看實例的高峯期在哪一個時點,包括資源的使用在哪一個時點,
這樣就能夠觀察到資源使用的高峯期,對資源作合理的分配,防止到時間的任務出現等資源的狀況。
下圖將實例數量和資源使用率合在了一張折線圖上。
能夠看到2點到3點的資源使用和任務數量很是的高,應該重點優化。
5、以上都是一天的統計值,具備偶發性,咱們須要找出那些一段時間內運行問題較大的任務,能夠觀察一段時間內,執行時長和出錯次數最多的top10,以下圖所示
能夠調整每張表的粒度,如週期爲近一個月或最近七天,也能夠按照人維度排行,看看哪位開發人員的任務最須要優化。
6、在更長一段時間內觀察,好比一年。能夠觀察節點或實例的變化值,以下圖所示
7、其餘。
若是節點由多種編碼組成,能夠查看當前任務的類型的分佈。