告警鍵值 -----------------------------------------------------中文釋義--------------------------------------------------------------------------------------故障持續時間node
AlertmanagerConfigInconsistent | AlertManager羣集xxxx的實例配置不一樣步。 | 5m |
AlertmanagerDown | AlertManager已從普羅米修斯目標發現中消失。 | 15m |
AlertmanagerFailedReload | 從新加載AlertManager的配置失敗 | 10m |
AlertmanagerMembersInconsistent | AlertManager未找到羣集的全部其餘成員。 | 5m |
CPUThrottlingHigh | cpu節流高,使用低CPU限制,就算高峯期,整個集羣仍是有不少空閒資源 | 15m |
etcdGRPCRequestsSlow | ETCD GRPC請求緩慢 | 10m |
etcdHighCommitDurations | ETCD提交時間過長 | 10m |
etcdHighFsyncDurations | ETCD同步時間過長 | 10m |
etcdHighNumberOfFailedGRPCRequests | ETCD失敗的GRPC請求數太多 | 10m |
etcdHighNumberOfFailedHTTPRequests | ETCD失敗的HTTP請求數太多 | 10m |
etcdHighNumberOfFailedProposals | ETCD失敗的計劃數量不少 | 15m |
etcdHighNumberOfLeaderChanges | ETCD Leader 變動次數多 | 15m |
etcdHTTPRequestsSlow | ETCD HTTP請求速度慢 | 10m |
etcdInsufficientMembers | ETCD成員不足 | 3m |
etcdMemberCommunicationSlow | ETCD成員通訊緩慢 | 10m |
etcdNoLeader | ETCD沒有Leader | 1m |
KubeAPIDown | KubeAPI 宕掉或不存在 | 15m |
KubeAPIErrorsHigh | API服務器正在爲請求的 值 返回錯誤。 | 10m |
KubeAPILatencyHigh | API服務器每秒鐘延遲超過99% | 10m |
KubeClientCertificateExpiration | 用於向APIServer進行身份驗證的客戶端證書將在7天內過時。 | 5m |
KubeClientErrors | 鏈接客戶端API 錯誤 | 15m |
KubeControllerManagerDown | KubeControllerManager 宕掉 | 15m |
KubeCPUOvercommit | 該集羣cpu超出資源限額 | 5m |
KubeCronJobRunning | CronJob 運行超過1小時 | 1h |
KubeDaemonSetMisScheduled | DaemonSet調度錯誤,沒有跑到正確的機器上 | 10m |
KubeDaemonSetNotScheduled | DaemonSet 位設置運行在哪,也就是分配錯誤 | 10m |
KubeDaemonSetRolloutStuck | DaemonSet 啓動或滾動時卡住? | 15m |
KubeDeploymentGenerationMismatch | Deployment 生成部署不匹配,部署失敗 | 15m |
KubeDeploymentReplicasMismatch | Deployment 與預期的副本數不匹配的時間已超過一小時。 | 1h |
KubeJobCompletion | Job 超過一小時才完成 | 1h |
KubeJobFailed | Job 失敗 | 1h |
KubeletDown | Kubelet宕掉了 | 15m |
KubeletTooManyPods | pods數量太多,超過極限的110% | 15m |
KubeMemOvercommit | 集羣內存資源使用過分,沒法再容忍故障節點漂移 | 5m |
KubeNodeNotReady | node故障超過1小時 | 1h |
KubePersistentVolumeErrors | 持久卷Volume 異常 | 5m |
KubePersistentVolumeFullInFourDays | 根據最近的採樣,某Volume 講在4天內填滿 | 5m |
KubePersistentVolumeUsageCritical | 該持久卷使用權限不足,只能在xxx空間內使用 | 1m |
KubePodCrashLooping | 該pod CrashLoopBackOff 狀態重啓超過5分鐘 | 1h |
KubePodNotReady | pod處於未就緒狀態超過一小時。 | 1h |
KubeQuotaExceeded | Kube 使用超出配額 | 15m |
KubeSchedulerDown | KubeScheduler 宕掉 | 15m |
KubeStatefulSetGenerationMismatch | StatefulSet 錯誤,但還沒有回滾 | 15m |
KubeStatefulSetReplicasMismatch | statefulset 副本集不匹配,超過15分鐘 | 15m |
KubeStatefulSetUpdateNotRolledOut | statefulset 更新還沒有結束(更新超時) | 15m |
KubeStateMetricsDown | KubeStateMetrics 宕掉 | 15m |
KubeVersionMismatch | kube版本不匹配 | 1h |
NodeDiskRunningFull | node磁盤空間超過85% | 10m |
NodeExporterDown | NodeExporter 宕機 | 15m |
PrometheusConfigReloadFailed | Prometheus重載配置失敗 | 10m |
PrometheusDown | Prometheus 宕機 | 15m |
PrometheusErrorSendingAlerts | 從Prometheus 向AlertManager 發送警報時出錯 | 10m |
PrometheusNotConnectedToAlertmanagers | Prometheus 不能鏈接AlertManager | 10m |
PrometheusNotificationQueueRunningFull | Prometheus的警報通知隊列已滿 | 10m |
PrometheusNotIngestingSamples | 信息存儲opentsdb 異常 | 10m |
PrometheusOperatorDown | PrometheusOperator 宕機 | 15m |
PrometheusOperatorNodeLookupErrors | PrometheusOperator 節點錯誤 | 10m |
PrometheusOperatorReconcileErrors | PrometheusOperator 有錯誤日誌 | 10m |
PrometheusTargetScrapesDuplicate | 因爲時間戳重複但值不一樣,拒絕了不少採集數據 | 10m |
PrometheusTSDBCompactionsFailing | 壓縮實例塊出現問題超過4個小時 | 12h |
PrometheusTSDBReloadsFailing | 磁盤從新加載數據塊時出現問題超過4個小時 | 12h |
PrometheusTSDBWALCorruptions | TSDB 的wal 預寫日誌已損壞 | 4h |
TargetDown | 總體labels.job量降低了10%? | 10m |