ganglia監控hadoop各指標說明

時間 2019-12-17

原文原文鏈接

監控指標大體以下：

default.shuffleInput

dfs.datanode

jvm

mapred.shuffleOutput

rpc

metricssystem

dfs.datanode.blockChecksumOp_avg_time 塊校驗平均時間
dfs.datanode.blockChecksumOp_num_ops 塊檢驗次數
dfs.datanode.blockReports_avg_time 塊報告平均時間
dfs.datanode.blockReports_num_ops 塊報告次數
dfs.datanode.block_verification_failures 塊驗證失敗次數
dfs.datanode.blocks_read 從硬盤讀塊總次數
dfs.datanode.blocks_removed 刪除塊數目
dfs.datanode.blocks_replicated 塊複製總次數
dfs.datanode.blocks_verified 塊驗證總次數
dfs.datanode.blocks_written 向硬盤寫塊總次數
dfs.datanode.bytes_read 讀出總字節包含crc驗證文件字節數
dfs.datanode.bytes_written 寫入總字節數（在寫入每一個packet時計數）
dfs.datanode.copyBlockOp_avg_time 複製塊平均時間（單位ms）
dfs.datanode.copyBlockOp_num_ops 複製塊次數
dfs.datanode.heartBeats_avg_time 向namenode彙報平均時間
dfs.datanode.heartBeats_num_ops 向namenode彙報總次數
dfs.datanode.readBlockOp_avg_time 讀塊平均時間（單位ms）
dfs.datanode.readBlockOp_num_ops 讀塊總次數通常和dfs.datanode.blocks_read 一致，先從硬盤讀入輸入流，增長dfs.datanode.blocks_read 計數，而後再增長該計數
dfs.datanode.reads_from_local_client 從本地讀入塊次數
dfs.datanode.reads_from_remote_client 從遠程讀入塊次數
dfs.datanode.replaceBlockOp_avg_time 替換塊平均時間（負載均衡策略）
dfs.datanode.replaceBlockOp_num_ops 替換塊次數（負載均衡策略）
dfs.datanode.volumeFailures notfound 和block擁有的volume 失敗有關
dfs.datanode.writeBlockOp_avg_time 寫塊平均時間
dfs.datanode.writeBlockOp_num_ops 寫塊總次數通常和dfs.datanode.blocks_written 一致，先從硬盤，增長dfs.datanode.blocks_read 計數，而後再增長該計數
dfs.datanode.writes_from_local_client 寫本地次數
dfs.datanode.writes_from_remote_client 寫遠程次數
jvm.metrics.gcCount gc總次數
jvm.metrics.gcTimeMillis gc總耗時(ms)
jvm.metrics.logError jvm error 次數
jvm.metrics.logFatal jvm出現fatal次數
jvm.metrics.logInfo jvm info出現次數
jvm.metrics.logWarn jvm warn出現次數
jvm.metrics.maxMemoryM jvm試圖使用最大內存（M），若是沒有限制返回Long.MAX_VALUE
jvm.metrics.memHeapCommittedM jvm提交堆內存大小
jvm.metrics.memHeapUsedM jvm使用堆內存大小
jvm.metrics.memNonHeapCommittedM jvm非堆內存已提交大小
jvm.metrics.memNonHeapUsedM jvm非堆內存已使用大小
jvm.metrics.threadsBlocked 正在阻塞等待監視器鎖的線程數目
jvm.metrics.threadsNew 還沒有啓動的線程數目
jvm.metrics.threadsRunnable 正在執行狀態的線程數目
jvm.metrics.threadsTerminated 已退出線程數目
jvm.metrics.threadsTimedWaiting 等待另外一個線程執行取決於指定等待時間的操做的線程數目
jvm.metrics.threadsWaiting 無限期地等待另外一個線程來執行某一特定操做的線程數目

rpc.metrics.NumOpenConnections                     number of open connections rpc鏈接打開的數目
rpc.metrics.ReceivedBytes                          number of bytes received rpc收到的字節數
rpc.metrics.RpcProcessingTime_avg_time             Average time for RPC Operations in last interval rpc在最近的交互中平均操做時間
rpc.metrics.RpcProcessingTime_num_ops              rpc在最近的交互中鏈接數目
rpc.metrics.RpcQueueTime_avg_time                  rpc在交互中平均等待時間
rpc.metrics.RpcQueueTime_num_ops                 rpc queue中完成的rpc操做數目
rpc.metrics.SentBytes                              number of bytes sent rpc發送的數據字節
rpc.metrics.callQueueLen                           length of the rpc queue rpc 隊列長度
rpc.metrics.rpcAuthenticationFailures              number of failed authentications rpc 驗證失敗次數
rpc.metrics.rpcAuthenticationSuccesses             number of successful authentications   驗證成功數
rpc.metrics.rpcAuthorizationFailures               number of failed authorizations   受權失敗次數
rpc.metrics.rpcAuthorizationSuccesses              number of successful authorizations 成功次數

mapred.shuffleInput.shuffle_failed_fetches     從map輸出中取數據過程當中獲取失敗次數
mapred.shuffleInput.shuffle_fetchers_busy_percent   在獲取map輸出過程當中並行獲取線程忙碌佔總並行獲取線程百分比
mapred.shuffleInput.shuffle_input_bytes              shuffle過程當中讀入數據字節
mapred.shuffleInput.shuffle_success_fetches    從map輸出中取數據過程當中獲取成功次數
mapred.shuffleOutput.shuffle_failed_outputs    向reduce發送map輸出失敗次數
mapred.shuffleOutput.shuffle_handler_busy_percent    向reduce發送map輸出中server線程忙碌佔總工做線程(在tasktracker.http.threads中配置)百分比。
mapred.shuffleOutput.shuffle_output_bytes            shuffle過程當中輸出數據字節
mapred.shuffleOutput.shuffle_success_outputs         向reduce成功
mapred.tasktracker.mapTaskSlots                設置map槽數
mapred.tasktracker.maps_running                正在運行的map數
mapred.tasktracker.reduceTaskSlots             設置reduce槽數
mapred.tasktracker.reduces_running             正在運行的reduce數
mapred.tasktracker.tasks_completed             完成任務數
mapred.tasktracker.tasks_failed_ping           因tasktracker與task交互失敗致使的失敗的task數目
mapred.tasktracker.tasks_failed_timeout        因task未在mapred.task.timeout配置的(默認10分鐘)時間內彙報進度而超時kill的task數目
rpc.detailed-metrics.canCommit_avg_time        rpc詢問是否提交任務平均時間
rpc.detailed-metrics.canCommit_num_ops         rpc詢問是否提交任務次數
rpc.detailed-metrics.commitPending_avg_time    rpc報告任務提交完成，可是該提交仍然處於pending狀態的平均時間
rpc.detailed-metrics.commitPending_num_ops     rpc報告任務提交完成，可是該提交仍然處於pending狀態的次數
rpc.detailed-metrics.done_avg_time             rpc報告任務成功完成的平均時間
rpc.detailed-metrics.done_num_ops              rpc報告任務成功完成的次數
rpc.detailed-metrics.fatalError_avg_time       rpc報告任務出現fatalerror的平均時間
rpc.detailed-metrics.fatalError_num_ops        rpc報告任務出現fatalerror的次數
rpc.detailed-metrics.getBlockInfo_avg_time     從指定datanode獲取block的平均時間
rpc.detailed-metrics.getBlockInfo_num_ops      從指定datanode獲取block的次數
rpc.detailed-metrics.getMapCompletionEvents_avg_time reduce獲取已經完成的map輸出地址事件的平均時間
rpc.detailed-metrics.getMapCompletionEvents_num_ops   reduce獲取已經完成的map輸出地址事件的次數
rpc.detailed-metrics.getProtocolVersion_avg_time      獲取rpc協議版本信息的平均時間
rpc.detailed-metrics.getProtocolVersion_num_ops       獲取rpc協議版本信息的次數
rpc.detailed-metrics.getTask_avg_time                 當子進程啓動後，獲取jvmtask的平均時間
rpc.detailed-metrics.getTask_num_ops                  當子進程啓動後，獲取jvmtask的次數
rpc.detailed-metrics.ping_avg_time                    子進程週期性的檢測父進程是否還存活的平均時間
rpc.detailed-metrics.ping_num_ops                     子進程週期性的檢測父進程是否還存活的次數
rpc.detailed-metrics.recoverBlock_avg_time             爲指定的block開始恢復標記生成的平均時間
rpc.detailed-metrics.recoverBlock_num_ops              爲指定的block開始恢復標記生成的次數
rpc.detailed-metrics.reportDiagnosticInfo_avg_time     向父進程報告任務錯誤消息的平均時間，該操做應儘量少，這些消息會在jobtracker中保存
rpc.detailed-metrics.reportDiagnosticInfo_num_ops      向父進程報告任務錯誤消息的次數
rpc.detailed-metrics.startBlockRecovery_avg_time       開始恢復block的平均時間
rpc.detailed-metrics.startBlockRecovery_num_ops        開始恢復block的次數
rpc.detailed-metrics.statusUpdate_avg_time             彙報子進程進度給父進程的平均時間
rpc.detailed-metrics.statusUpdate_num_ops              彙報子進程進度給父進程的次數
rpc.detailed-metrics.updateBlock_avg_time              更新block到新的標記及長度的平均操做時間
rpc.detailed-metrics.updateBlock_num_ops               更新block到新的標記及長度的次數css

HBASE監控項翻譯
node

hbase.regionserver.blockCacheCount ：內存中緩存塊(block cache)數。緩存中StoreFiles(HFiles)的塊（block）數量。緩存

hbase.regionserver.blockCacheEvictedCount ：因超出堆大小限制，從緩存中釋放的塊數量。負載均衡

hbase.regionserver.blockCacheFree： 可用的緩存塊容量。jvm

hbase.regionserver.blockCacheHitCachingRatio：緩存塊的緩存命中率（0-100）。讀取的緩存命中率被配置爲查看緩存（如cacheblocks=true）。fetch

hbase.regionserver.blockCacheHitCount ：StoreFiles(HFiles)從緩存中讀取的塊數量。大數據

hbase.regionserver.blockCacheHitRatio：緩存塊的命中率(0-100).包括全部讀請求，儘管cacheBlocks=false的讀出會被計爲cache丟失。spa

hbase.regionserver.blockCacheMissCount：被StoreFiles (HFiles)請求可是未從緩存中讀出的塊數量。線程

hbase.regionserver.blockCacheSize：內存中塊緩存的容量，特指被blockcache佔用的內存容量。翻譯

hbase.regionserver.compactionQueueSize ：Compaction隊列大小，用於compaction的RegionServer中的Store個數。

hbase.regionserver.flushQueueSize ：MemStore中等待flush操做的排隊region數量。

hbase.regionserver.fsReadLatency_avg_time ：文件系統延遲（ms）。從HDFS讀操做的平均時間。

hbase.regionserver.memstoreSizeMB ：當前RegionServer中全部Memstore的總容量(MB)。

hbase.regionserver.requests ：總的讀和寫請求次數。請求至關於RegionServer的RPC調用，所以一個Get至關於一次請求，可是哪怕Scan的caching值設置爲 1000，對SCAN每一個「下一次」調用僅至關於一次請求，（例如，非每行）。對於大數據塊的請求，每一個 HFile對應一次請求。

hbase.regionserver.storefileIndexSizeMB：RegionServer中 StoreFile文件索引大小的總和(MB)。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。