在上一篇的文章中已經明確說過DKM做爲大快發行版DKhadoop的管理平臺,它的四大功能分別是:管理功能,監控功能,診斷功能和集成功能。管理功能已經給你們列舉了一些作了說明,今天就DKM平臺的監控功能再給你們作細緻的分享分析。網絡
DKM 提供了許多監控功能,用於檢測集羣健康,組件性能以及集羣中運行的做業的性能和資源需求。具體包括如下監控功能:oop
一、服務監控:性能
查看服務和角色實例級別健康檢查的結果,並經過圖表顯示,有助於診斷問題。若是健康檢查發現某個組件的狀態須要特別關注甚至已經出現問題,系統會對管理員應該採起的行動提出建議。同時,系統管理員還能夠查看服務上的或角色上操做的執行歷史,也能夠查看配置更改的審計日誌。大數據
二、主機監控日誌
監控羣集內全部主機的有關信息,包括:哪些主機上線或下線,主機上目前消耗的內存,主機上運行的角色實例分配,不一樣機架上的主機分配等等。彙總視圖中顯示了羣集全部主機,而且能夠進一步查看單個主機豐富的細節,包括顯示主機關鍵指標的直觀圖表。blog
三、行爲監控:事件
DKM提供了列表以及圖表的方式來查看集羣上進行的活動,能夠顯示當前正在執行的任務行爲,還能夠查看歷史活動。同時提供了各個做業所使用資源的許多統計,系統管理員能夠經過比較類似任務的不一樣性能數據以及比較查看同一任務中不一樣執行的性能數據來診斷性能問題或行爲問題。內存
四、報警:hadoop
經過配置DKM能夠對指定的事件產生警報。資源
五、日誌:
介紹如何訪問日誌中的各類考慮到你正在查看當前上下文的方式。例如,監控服務時,你能夠輕鬆地點擊一個連接,查看相關的特定服務的日誌條目,經過相同的用戶界面。當查看關於用戶的活動信息,您能夠方便地查看做業運行時所用的做業的主機上發生的相關日誌條目。
六、集羣及服務實時監控:
DKM 會實時的對集羣的各項服務進行監控,一旦服務出現異常,將會產生告警。同時,對集羣的各項性能數據進行監控,例如CPU,內存,網絡等,一方面可以監控集羣的性能狀態,一方面可以幫助性能調優。
七、HDFS 服務監控:
以HDFS服務爲例,HDFS 服務頁面中顯示了服務狀態的彙總信息,包括HDFS綜述,HDFS 文件系統塊總數,總大小,文件總數等 。
八、節點級別監控
DKM 可以查看單個節點的各個服務狀態