ganglia監控hadoop各指標說明

監控指標大體以下: 

default.shuffleInput 

dfs.datanode 

jvm 

mapred.shuffleOutput 

rpc 

metricssystem 



dfs.datanode.blockChecksumOp_avg_time 塊校驗平均時間 
dfs.datanode.blockChecksumOp_num_ops 塊檢驗次數 
dfs.datanode.blockReports_avg_time 塊報告平均時間 
dfs.datanode.blockReports_num_ops 塊報告次數 
dfs.datanode.block_verification_failures 塊驗證失敗次數 
dfs.datanode.blocks_read 從硬盤讀塊總次數 
dfs.datanode.blocks_removed 刪除塊數目 
dfs.datanode.blocks_replicated 塊複製總次數 
dfs.datanode.blocks_verified 塊驗證總次數 
dfs.datanode.blocks_written 向硬盤寫塊總次數 
dfs.datanode.bytes_read 讀出總字節包含crc驗證文件字節數 
dfs.datanode.bytes_written 寫入總字節數(在寫入每一個packet時計數) 
dfs.datanode.copyBlockOp_avg_time 複製塊平均時間 (單位ms) 
dfs.datanode.copyBlockOp_num_ops 複製塊次數 
dfs.datanode.heartBeats_avg_time 向namenode彙報平均時間 
dfs.datanode.heartBeats_num_ops 向namenode彙報總次數 
dfs.datanode.readBlockOp_avg_time 讀塊平均時間(單位ms) 
dfs.datanode.readBlockOp_num_ops 讀塊總次數 通常和dfs.datanode.blocks_read 一致,先從硬盤讀入輸入流,增長dfs.datanode.blocks_read 計數,而後再增長該計數 
dfs.datanode.reads_from_local_client 從本地讀入塊次數 
dfs.datanode.reads_from_remote_client 從遠程讀入塊次數 
dfs.datanode.replaceBlockOp_avg_time 替換塊平均時間(負載均衡策略) 
dfs.datanode.replaceBlockOp_num_ops 替換塊次數(負載均衡策略) 
dfs.datanode.volumeFailures notfound 和block擁有的volume 失敗有關 
dfs.datanode.writeBlockOp_avg_time 寫塊平均時間 
dfs.datanode.writeBlockOp_num_ops 寫塊總次數通常和dfs.datanode.blocks_written 一致,先從硬盤,增長dfs.datanode.blocks_read 計數,而後再增長該計數 
dfs.datanode.writes_from_local_client 寫本地次數 
dfs.datanode.writes_from_remote_client 寫遠程次數 
jvm.metrics.gcCount gc總次數 
jvm.metrics.gcTimeMillis gc總耗時(ms) 
jvm.metrics.logError jvm error 次數 
jvm.metrics.logFatal jvm出現fatal次數 
jvm.metrics.logInfo jvm info出現次數 
jvm.metrics.logWarn jvm warn出現次數 
jvm.metrics.maxMemoryM jvm試圖使用最大內存(M),若是沒有限制返回Long.MAX_VALUE 
jvm.metrics.memHeapCommittedM jvm提交堆內存大小 
jvm.metrics.memHeapUsedM jvm使用堆內存大小 
jvm.metrics.memNonHeapCommittedM jvm非堆內存已提交大小 
jvm.metrics.memNonHeapUsedM jvm非堆內存已使用大小 
jvm.metrics.threadsBlocked 正在阻塞等待監視器鎖的線程數目 
jvm.metrics.threadsNew 還沒有啓動的線程數目 
jvm.metrics.threadsRunnable 正在執行狀態的線程數目 
jvm.metrics.threadsTerminated 已退出線程數目 
jvm.metrics.threadsTimedWaiting 等待另外一個線程執行取決於指定等待時間的操做的線程數目 
jvm.metrics.threadsWaiting 無限期地等待另外一個線程來執行某一特定操做的線程數目 




rpc.metrics.NumOpenConnections                     number of open connections rpc鏈接打開的數目 
rpc.metrics.ReceivedBytes                          number of bytes received rpc收到的字節數 
rpc.metrics.RpcProcessingTime_avg_time             Average time for RPC Operations in last interval rpc在最近的交互中平均操做時間                   
rpc.metrics.RpcProcessingTime_num_ops              rpc在最近的交互中鏈接數目 
rpc.metrics.RpcQueueTime_avg_time                  rpc在交互中平均等待時間 
rpc.metrics.RpcQueueTime_num_ops                 rpc queue中完成的rpc操做數目 
rpc.metrics.SentBytes                              number of bytes sent  rpc發送的數據字節 
rpc.metrics.callQueueLen                           length of the rpc queue  rpc 隊列長度 
rpc.metrics.rpcAuthenticationFailures              number of failed authentications  rpc 驗證失敗次數 
rpc.metrics.rpcAuthenticationSuccesses             number of successful authentications   驗證成功數 
rpc.metrics.rpcAuthorizationFailures               number of failed authorizations   受權失敗次數 
rpc.metrics.rpcAuthorizationSuccesses              number of successful authorizations  成功次數 



mapred.shuffleInput.shuffle_failed_fetches     從map輸出中取數據過程當中獲取失敗次數     
mapred.shuffleInput.shuffle_fetchers_busy_percent   在獲取map輸出過程當中並行獲取線程忙碌佔總並行獲取線程百分比 
mapred.shuffleInput.shuffle_input_bytes              shuffle過程當中讀入數據字節 
mapred.shuffleInput.shuffle_success_fetches    從map輸出中取數據過程當中獲取成功次數  
mapred.shuffleOutput.shuffle_failed_outputs    向reduce發送map輸出失敗次數 
mapred.shuffleOutput.shuffle_handler_busy_percent    向reduce發送map輸出中server線程忙碌佔總工做線程(在tasktracker.http.threads中配置)百分比。 
mapred.shuffleOutput.shuffle_output_bytes            shuffle過程當中輸出數據字節 
mapred.shuffleOutput.shuffle_success_outputs         向reduce成功 
mapred.tasktracker.mapTaskSlots                設置map槽數 
mapred.tasktracker.maps_running                正在運行的map數 
mapred.tasktracker.reduceTaskSlots             設置reduce槽數 
mapred.tasktracker.reduces_running             正在運行的reduce數 
mapred.tasktracker.tasks_completed             完成任務數      
mapred.tasktracker.tasks_failed_ping           因tasktracker與task交互失敗致使的失敗的task數目 
mapred.tasktracker.tasks_failed_timeout        因task未在mapred.task.timeout配置的(默認10分鐘)時間內彙報進度而超時kill的task數目 
rpc.detailed-metrics.canCommit_avg_time        rpc詢問是否提交任務平均時間 
rpc.detailed-metrics.canCommit_num_ops         rpc詢問是否提交任務次數 
rpc.detailed-metrics.commitPending_avg_time    rpc報告任務提交完成,可是該提交仍然處於pending狀態的平均時間 
rpc.detailed-metrics.commitPending_num_ops     rpc報告任務提交完成,可是該提交仍然處於pending狀態的次數 
rpc.detailed-metrics.done_avg_time             rpc報告任務成功完成的平均時間 
rpc.detailed-metrics.done_num_ops              rpc報告任務成功完成的次數 
rpc.detailed-metrics.fatalError_avg_time       rpc報告任務出現fatalerror的平均時間 
rpc.detailed-metrics.fatalError_num_ops        rpc報告任務出現fatalerror的次數 
rpc.detailed-metrics.getBlockInfo_avg_time     從指定datanode獲取block的平均時間 
rpc.detailed-metrics.getBlockInfo_num_ops      從指定datanode獲取block的次數 
rpc.detailed-metrics.getMapCompletionEvents_avg_time  reduce獲取已經完成的map輸出地址事件的平均時間 
rpc.detailed-metrics.getMapCompletionEvents_num_ops   reduce獲取已經完成的map輸出地址事件的次數 
rpc.detailed-metrics.getProtocolVersion_avg_time      獲取rpc協議版本信息的平均時間 
rpc.detailed-metrics.getProtocolVersion_num_ops       獲取rpc協議版本信息的次數 
rpc.detailed-metrics.getTask_avg_time                 當子進程啓動後,獲取jvmtask的平均時間 
rpc.detailed-metrics.getTask_num_ops                  當子進程啓動後,獲取jvmtask的次數 
rpc.detailed-metrics.ping_avg_time                    子進程週期性的檢測父進程是否還存活的平均時間 
rpc.detailed-metrics.ping_num_ops                     子進程週期性的檢測父進程是否還存活的次數 
rpc.detailed-metrics.recoverBlock_avg_time             爲指定的block開始恢復標記生成的平均時間 
rpc.detailed-metrics.recoverBlock_num_ops              爲指定的block開始恢復標記生成的次數 
rpc.detailed-metrics.reportDiagnosticInfo_avg_time     向父進程報告任務錯誤消息的平均時間,該操做應儘量少,這些消息會在jobtracker中保存 
rpc.detailed-metrics.reportDiagnosticInfo_num_ops      向父進程報告任務錯誤消息的次數 
rpc.detailed-metrics.startBlockRecovery_avg_time       開始恢復block的平均時間 
rpc.detailed-metrics.startBlockRecovery_num_ops        開始恢復block的次數 
rpc.detailed-metrics.statusUpdate_avg_time             彙報子進程進度給父進程的平均時間 
rpc.detailed-metrics.statusUpdate_num_ops              彙報子進程進度給父進程的次數 
rpc.detailed-metrics.updateBlock_avg_time              更新block到新的標記及長度的平均操做時間 
rpc.detailed-metrics.updateBlock_num_ops               更新block到新的標記及長度的次數css

HBASE監控項翻譯
node

hbase.regionserver.blockCacheCount  內存中緩存塊(block cache)數。緩存中StoreFiles(HFiles)的塊(block)數量。緩存

hbase.regionserver.blockCacheEvictedCount  :因超出堆大小限制,從緩存中釋放的塊數量。負載均衡

hbase.regionserver.blockCacheFree: 可用的緩存塊容量。jvm

hbase.regionserver.blockCacheHitCachingRatio:緩存塊的緩存命中率(0-100)。讀取的緩存命中率被配置爲查看緩存(如cacheblocks=true)。fetch

hbase.regionserver.blockCacheHitCount  :StoreFiles(HFiles)從緩存中讀取的塊數量。大數據

hbase.regionserver.blockCacheHitRatio:緩存塊的命中率(0-100).包括全部讀請求,儘管cacheBlocks=false的讀出會被計爲cache丟失。spa

hbase.regionserver.blockCacheMissCount:StoreFiles (HFiles)請求可是未從緩存中讀出的塊數量。線程

hbase.regionserver.blockCacheSize:內存中塊緩存的容量,特指被blockcache佔用的內存容量。翻譯

hbase.regionserver.compactionQueueSize :Compaction隊列大小,用於compactionRegionServer中的Store個數。

hbase.regionserver.flushQueueSize :MemStore中等待flush操做的排隊region數量。

hbase.regionserver.fsReadLatency_avg_time :文件系統延遲(ms)。從HDFS讀操做的平均時間。

hbase.regionserver.memstoreSizeMB   :當前RegionServer中全部Memstore的總容量(MB)。

hbase.regionserver.requests :總 的讀和寫請求次數。請求至關於RegionServer的RPC調用,所以一個Get至關於一次請求,可是哪怕Scan的caching值設置爲 1000,對SCAN每一個「下一次」調用僅至關於一次請求,(例如,非每行)。對於大數據塊的請求,每一個 HFile對應一次請求。

hbase.regionserver.storefileIndexSizeMB:RegionServer中 StoreFile文件索引大小的總和(MB)。

相關文章
相關標籤/搜索