默認監控key與中文釋義

告警鍵值   -----------------------------------------------------中文釋義--------------------------------------------------------------------------------------故障持續時間node

AlertmanagerConfigInconsistent AlertManager羣集xxxx的實例配置不一樣步。 5m
AlertmanagerDown AlertManager已從普羅米修斯目標發現中消失。 15m
AlertmanagerFailedReload 從新加載AlertManager的配置失敗 10m
AlertmanagerMembersInconsistent AlertManager未找到羣集的全部其餘成員。 5m
CPUThrottlingHigh cpu節流高,使用低CPU限制,就算高峯期,整個集羣仍是有不少空閒資源 15m
etcdGRPCRequestsSlow ETCD GRPC請求緩慢 10m
etcdHighCommitDurations ETCD提交時間過長 10m
etcdHighFsyncDurations ETCD同步時間過長 10m
etcdHighNumberOfFailedGRPCRequests ETCD失敗的GRPC請求數太多 10m
etcdHighNumberOfFailedHTTPRequests ETCD失敗的HTTP請求數太多 10m
etcdHighNumberOfFailedProposals ETCD失敗的計劃數量不少 15m
etcdHighNumberOfLeaderChanges ETCD Leader 變動次數多 15m
etcdHTTPRequestsSlow ETCD HTTP請求速度慢 10m
etcdInsufficientMembers ETCD成員不足 3m
etcdMemberCommunicationSlow ETCD成員通訊緩慢 10m
etcdNoLeader ETCD沒有Leader 1m
KubeAPIDown KubeAPI 宕掉或不存在 15m
KubeAPIErrorsHigh API服務器正在爲請求的 值 返回錯誤。 10m
KubeAPILatencyHigh API服務器每秒鐘延遲超過99% 10m
KubeClientCertificateExpiration 用於向APIServer進行身份驗證的客戶端證書將在7天內過時。 5m
KubeClientErrors 鏈接客戶端API 錯誤 15m
KubeControllerManagerDown KubeControllerManager 宕掉 15m
KubeCPUOvercommit 該集羣cpu超出資源限額 5m
KubeCronJobRunning CronJob 運行超過1小時 1h
KubeDaemonSetMisScheduled DaemonSet調度錯誤,沒有跑到正確的機器上 10m
KubeDaemonSetNotScheduled DaemonSet 位設置運行在哪,也就是分配錯誤 10m
KubeDaemonSetRolloutStuck DaemonSet 啓動或滾動時卡住? 15m
KubeDeploymentGenerationMismatch Deployment 生成部署不匹配,部署失敗 15m
KubeDeploymentReplicasMismatch Deployment 與預期的副本數不匹配的時間已超過一小時。 1h
KubeJobCompletion Job 超過一小時才完成 1h
KubeJobFailed Job 失敗 1h
KubeletDown Kubelet宕掉了 15m
KubeletTooManyPods pods數量太多,超過極限的110% 15m
KubeMemOvercommit 集羣內存資源使用過分,沒法再容忍故障節點漂移 5m
KubeNodeNotReady node故障超過1小時 1h
KubePersistentVolumeErrors 持久卷Volume 異常 5m
KubePersistentVolumeFullInFourDays 根據最近的採樣,某Volume 講在4天內填滿 5m
KubePersistentVolumeUsageCritical 該持久卷使用權限不足,只能在xxx空間內使用 1m
KubePodCrashLooping 該pod CrashLoopBackOff 狀態重啓超過5分鐘 1h
KubePodNotReady pod處於未就緒狀態超過一小時。 1h
KubeQuotaExceeded Kube 使用超出配額 15m
KubeSchedulerDown KubeScheduler 宕掉 15m
KubeStatefulSetGenerationMismatch StatefulSet 錯誤,但還沒有回滾 15m
KubeStatefulSetReplicasMismatch statefulset 副本集不匹配,超過15分鐘 15m
KubeStatefulSetUpdateNotRolledOut statefulset 更新還沒有結束(更新超時) 15m
KubeStateMetricsDown KubeStateMetrics 宕掉 15m
KubeVersionMismatch kube版本不匹配 1h
NodeDiskRunningFull node磁盤空間超過85% 10m
NodeExporterDown NodeExporter 宕機 15m
PrometheusConfigReloadFailed Prometheus重載配置失敗 10m
PrometheusDown Prometheus 宕機 15m
PrometheusErrorSendingAlerts 從Prometheus 向AlertManager 發送警報時出錯 10m
PrometheusNotConnectedToAlertmanagers Prometheus 不能鏈接AlertManager 10m
PrometheusNotificationQueueRunningFull Prometheus的警報通知隊列已滿 10m
PrometheusNotIngestingSamples 信息存儲opentsdb 異常 10m
PrometheusOperatorDown PrometheusOperator 宕機 15m
PrometheusOperatorNodeLookupErrors PrometheusOperator 節點錯誤 10m
PrometheusOperatorReconcileErrors PrometheusOperator 有錯誤日誌 10m
PrometheusTargetScrapesDuplicate 因爲時間戳重複但值不一樣,拒絕了不少採集數據 10m
PrometheusTSDBCompactionsFailing 壓縮實例塊出現問題超過4個小時 12h
PrometheusTSDBReloadsFailing 磁盤從新加載數據塊時出現問題超過4個小時 12h
PrometheusTSDBWALCorruptions TSDB 的wal 預寫日誌已損壞 4h
TargetDown 總體labels.job量降低了10%? 10m
相關文章
相關標籤/搜索