默認監控key與中文釋義

時間 2019-11-08

標籤默認監控 key 中文釋義简体版

原文原文鏈接

告警鍵值 -----------------------------------------------------中文釋義--------------------------------------------------------------------------------------故障持續時間node

AlertmanagerConfigInconsistent	AlertManager羣集xxxx的實例配置不一樣步。	5m
AlertmanagerDown	AlertManager已從普羅米修斯目標發現中消失。	15m
AlertmanagerFailedReload	從新加載AlertManager的配置失敗	10m
AlertmanagerMembersInconsistent	AlertManager未找到羣集的全部其餘成員。	5m
CPUThrottlingHigh	cpu節流高，使用低CPU限制，就算高峯期，整個集羣仍是有不少空閒資源	15m
etcdGRPCRequestsSlow	ETCD GRPC請求緩慢	10m
etcdHighCommitDurations	ETCD提交時間過長	10m
etcdHighFsyncDurations	ETCD同步時間過長	10m
etcdHighNumberOfFailedGRPCRequests	ETCD失敗的GRPC請求數太多	10m
etcdHighNumberOfFailedHTTPRequests	ETCD失敗的HTTP請求數太多	10m
etcdHighNumberOfFailedProposals	ETCD失敗的計劃數量不少	15m
etcdHighNumberOfLeaderChanges	ETCD Leader 變動次數多	15m
etcdHTTPRequestsSlow	ETCD HTTP請求速度慢	10m
etcdInsufficientMembers	ETCD成員不足	3m
etcdMemberCommunicationSlow	ETCD成員通訊緩慢	10m
etcdNoLeader	ETCD沒有Leader	1m
KubeAPIDown	KubeAPI 宕掉或不存在	15m
KubeAPIErrorsHigh	API服務器正在爲請求的值返回錯誤。	10m
KubeAPILatencyHigh	API服務器每秒鐘延遲超過99%	10m
KubeClientCertificateExpiration	用於向APIServer進行身份驗證的客戶端證書將在7天內過時。	5m
KubeClientErrors	鏈接客戶端API 錯誤	15m
KubeControllerManagerDown	KubeControllerManager 宕掉	15m
KubeCPUOvercommit	該集羣cpu超出資源限額	5m
KubeCronJobRunning	CronJob 運行超過1小時	1h
KubeDaemonSetMisScheduled	DaemonSet調度錯誤，沒有跑到正確的機器上	10m
KubeDaemonSetNotScheduled	DaemonSet 位設置運行在哪，也就是分配錯誤	10m
KubeDaemonSetRolloutStuck	DaemonSet 啓動或滾動時卡住？	15m
KubeDeploymentGenerationMismatch	Deployment 生成部署不匹配，部署失敗	15m
KubeDeploymentReplicasMismatch	Deployment 與預期的副本數不匹配的時間已超過一小時。	1h
KubeJobCompletion	Job 超過一小時才完成	1h
KubeJobFailed	Job 失敗	1h
KubeletDown	Kubelet宕掉了	15m
KubeletTooManyPods	pods數量太多，超過極限的110%	15m
KubeMemOvercommit	集羣內存資源使用過分，沒法再容忍故障節點漂移	5m
KubeNodeNotReady	node故障超過1小時	1h
KubePersistentVolumeErrors	持久卷Volume 異常	5m
KubePersistentVolumeFullInFourDays	根據最近的採樣，某Volume 講在4天內填滿	5m
KubePersistentVolumeUsageCritical	該持久卷使用權限不足，只能在xxx空間內使用	1m
KubePodCrashLooping	該pod CrashLoopBackOff 狀態重啓超過5分鐘	1h
KubePodNotReady	pod處於未就緒狀態超過一小時。	1h
KubeQuotaExceeded	Kube 使用超出配額	15m
KubeSchedulerDown	KubeScheduler 宕掉	15m
KubeStatefulSetGenerationMismatch	StatefulSet 錯誤，但還沒有回滾	15m
KubeStatefulSetReplicasMismatch	statefulset 副本集不匹配，超過15分鐘	15m
KubeStatefulSetUpdateNotRolledOut	statefulset 更新還沒有結束（更新超時）	15m
KubeStateMetricsDown	KubeStateMetrics 宕掉	15m
KubeVersionMismatch	kube版本不匹配	1h
NodeDiskRunningFull	node磁盤空間超過85%	10m
NodeExporterDown	NodeExporter 宕機	15m
PrometheusConfigReloadFailed	Prometheus重載配置失敗	10m
PrometheusDown	Prometheus 宕機	15m
PrometheusErrorSendingAlerts	從Prometheus 向AlertManager 發送警報時出錯	10m
PrometheusNotConnectedToAlertmanagers	Prometheus 不能鏈接AlertManager	10m
PrometheusNotificationQueueRunningFull	Prometheus的警報通知隊列已滿	10m
PrometheusNotIngestingSamples	信息存儲opentsdb 異常	10m
PrometheusOperatorDown	PrometheusOperator 宕機	15m
PrometheusOperatorNodeLookupErrors	PrometheusOperator 節點錯誤	10m
PrometheusOperatorReconcileErrors	PrometheusOperator 有錯誤日誌	10m
PrometheusTargetScrapesDuplicate	因爲時間戳重複但值不一樣，拒絕了不少採集數據	10m
PrometheusTSDBCompactionsFailing	壓縮實例塊出現問題超過4個小時	12h
PrometheusTSDBReloadsFailing	磁盤從新加載數據塊時出現問題超過4個小時	12h
PrometheusTSDBWALCorruptions	TSDB 的wal 預寫日誌已損壞	4h
TargetDown	總體labels.job量降低了10%?	10m

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。