使用 Prometheus-Operator 監控 Calico

時間 2020-07-05

標籤使用 prometheus operator 監控 calico 简体版

原文原文鏈接

原文連接：https://fuckcloudnative.io/posts/monitoring-calico-with-prometheus-operator/node

Calico 中最核心的組件就是 Felix，它負責設置路由表和 ACL 規則等，以便爲該主機上的 endpoints 資源正常運行提供所需的網絡鏈接。同時它還負責提供有關網絡健康情況的數據（例如，報告配置其主機時發生的錯誤和問題），這些數據會被寫入 etcd，以使其對網絡中的其餘組件和操做人員可見。git

因而可知，對於咱們的監控來講，監控 Calico 的核心即是監控 Felix，Felix 就至關於 Calico 的大腦。本文將學習如何使用 Prometheus-Operator 來監控 Calico。github

本文不會涉及到 Calico 和 Prometheus-Operator 的部署細節，若是不知道如何部署，請查閱官方文檔和相關博客。json

1. 配置 Calico 以啓用指標

默認狀況下 Felix 的指標是被禁用的，必須經過命令行管理工具 calicoctl 手動更改 Felix 配置才能開啓，須要提早配置好命令行管理工具。後端

本文使用的 Calico 版本是 v3.15.0，其餘版本相似。先下載管理工具：api

$ wget https://github.com/projectcalico/calicoctl/releases/download/v3.15.0/calicoctl -O /usr/local/bin/calicoctl
$ chmod +x /usr/local/bin/calicoctl

接下來須要設置 calicoctl 配置文件（默認是 /etc/calico/calicoctl.cfg）。若是你的 Calico 後端存儲使用的是 Kubernetes API，那麼配置文件內容以下：bash

apiVersion: projectcalico.org/v3
kind: CalicoAPIConfig
metadata:
spec:
  datastoreType: "kubernetes"
  kubeconfig: "/root/.kube/config"

若是 Calico 後端存儲使用的是 etcd，那麼配置文件內容以下：網絡

apiVersion: projectcalico.org/v3
kind: CalicoAPIConfig
metadata:
spec:
  datastoreType: "etcdv3"
  etcdEndpoints: https://192.168.57.51:2379,https://192.168.57.52:2379,https://192.168.57.53:2379
  etcdKeyFile: /opt/kubernetes/ssl/server-key.pem
  etcdCertFile: /opt/kubernetes/ssl/server.pem
  etcdCACertFile: /opt/kubernetes/ssl/ca.pem

你須要將其中的證書路徑換成你的 etcd 證書路徑。app

配置好了 calicoctl 以後就能夠查看或修改 Calico 的配置了，先來看一下默認的 Felix 配置：curl

$ calicoctl get felixConfiguration default -o yaml

apiVersion: projectcalico.org/v3
kind: FelixConfiguration
metadata:
  creationTimestamp: "2020-06-25T14:37:28Z"
  name: default
  resourceVersion: "269031"
  uid: 52146c95-ff97-40a9-9ba7-7c3b4dd3ba57
spec:
  bpfLogLevel: ""
  ipipEnabled: true
  logSeverityScreen: Info
  reportingInterval: 0s

能夠看到默認的配置中沒有啓用指標，須要手動修改配置，命令以下：

$ calicoctl patch felixConfiguration default  --patch '{"spec":{"prometheusMetricsEnabled": true}}'

Felix 暴露指標的端口是 9091，可經過檢查監聽端口來驗證是否開啓指標：

$ ss -tulnp|grep 9091
tcp    LISTEN     0      4096   [::]:9091               [::]:*                   users:(("calico-node",pid=13761,fd=9))

$ curl -s http://localhost:9091/metrics
# HELP felix_active_local_endpoints Number of active endpoints on this host.
# TYPE felix_active_local_endpoints gauge
felix_active_local_endpoints 1
# HELP felix_active_local_policies Number of active policies on this host.
# TYPE felix_active_local_policies gauge
felix_active_local_policies 0
# HELP felix_active_local_selectors Number of active selectors on this host.
# TYPE felix_active_local_selectors gauge
felix_active_local_selectors 0
...

2. Prometheus 採集 Felix 指標

啓用了 Felix 的指標後，就能夠經過 Prometheus-Operator 來採集指標數據了。Prometheus-Operator 在部署時會建立 Prometheus、PodMonitor、ServiceMonitor、AlertManager 和 PrometheusRule 這 5 個 CRD 資源對象，而後會一直監控並維持這 5 個資源對象的狀態。其中 Prometheus 這個資源對象就是對 Prometheus Server 的抽象。而 PodMonitor 和 ServiceMonitor 就是 exporter 的各類抽象，是用來提供專門提供指標數據接口的工具，Prometheus 就是經過 PodMonitor 和 ServiceMonitor 提供的指標數據接口去 pull 數據的。

ServiceMonitor 要求被監控的服務必須有對應的 Service，而 PodMonitor 則不須要，本文選擇使用 PodMonitor 來採集 Felix 的指標。

PodMonitor 雖然不須要應用建立相應的 Service，但必須在 Pod 中指定指標的端口和名稱，所以須要先修改 DaemonSet calico-node 的配置，指定端口和名稱。先用如下命令打開 DaemonSet calico-node 的配置：

$ kubectl -n kube-system edit ds calico-node

而後在線修改，在 spec.template.sepc.containers 中加入如下內容：

ports:
        - containerPort: 9091
          name: http-metrics
          protocol: TCP

建立 Pod 對應的 PodMonitor：

# prometheus-podMonitorCalico.yaml
apiVersion: monitoring.coreos.com/v1
kind: PodMonitor
metadata:
  labels:
    k8s-app: calico-node
  name: felix
  namespace: monitoring
spec:
  podMetricsEndpoints:
  - interval: 15s
    path: /metrics
    port: http-metrics
  namespaceSelector:
    matchNames:
    - kube-system
  selector:
    matchLabels:
      k8s-app: calico-node

$ kubectl apply -f prometheus-podMonitorCalico.yaml

有幾個參數須要注意：

PodMonitor 的 name 最終會反應到 Prometheus 的配置中，做爲 job_name。
podMetricsEndpoints.port 須要和被監控的 Pod 中的 ports.name 相同，此處爲 http-metrics。
namespaceSelector.matchNames 須要和被監控的 Pod 所在的 namespace 相同，此處爲 kube-system。
selector.matchLabels 的標籤必須和被監控的 Pod 中能惟一標明身份的標籤對應。

最終 Prometheus-Operator 會根據 PodMonitor 來修改 Prometheus 的配置文件，以實現對相關的 Pod 進行監控。能夠打開 Prometheus 的 UI 查看監控目標：

注意 Labels 中有 pod="calico-node-xxx"，代表監控的是 Pod。

3. 可視化監控指標

採集完指標以後，就能夠經過 Grafana 的儀表盤來展現監控指標了。Prometheus-Operator 中部署的 Grafana 沒法實時修改儀表盤的配置（必須提早將儀表盤的 json 文件掛載到 Grafana Pod 中），並且也不是最新版（7.0 以上版本），因此我選擇刪除 Prometheus-Operator 自帶的 Grafana，自行部署 helm 倉庫中的 Grafana。先進入 kube-prometheus 項目的 manifests 目錄，而後將 Grafana 相關的部署清單都移到同一個目錄下，再刪除 Grafana：

$ cd kube-prometheus/manifests
$ mkdir grafana
$ mv grafana-* grafana/
$ kubectl delete -f grafana/

而後經過 helm 部署最新的 Grafana：

$ helm install grafana stable/grafana -n monitoring

訪問 Grafana 的密碼保存在 Secret 中，能夠經過如下命令查看：

$ kubectl -n monitoring get secret grafana -o yaml

apiVersion: v1
data:
  admin-password: MnpoV3VaMGd1b3R3TDY5d3JwOXlIak4yZ3B2cTU1RFNKcVY0RWZsUw==
  admin-user: YWRtaW4=
  ldap-toml: ""
kind: Secret
metadata:
...

對密碼進行解密：

$ echo -n "MnpoV3VaMGd1b3R3TDY5d3JwOXlIak4yZ3B2cTU1RFNKcVY0RWZsUw=="|base64 -d

解密出來的信息就是訪問密碼。用戶名是 admin。經過用戶名和密碼登陸 Grafana 的 UI：

添加 Prometheus-Operator 的數據源：

Calico 官方沒有單獨 dashboard json，而是將其放到了 ConfigMap 中，咱們須要從中提取須要的 json，提取出 felix-dashboard.json 的內容，而後將其中的 datasource 值替換爲 prometheus。你能夠用 sed 替換，也能夠用編輯器，大多數編輯器都有全局替換的功能。若是你實在不知道如何提取，可使用我提取好的 json：

修改完了以後，將 json 內容導入到 Grafana：

最後獲得的 Felix 儀表盤以下圖所示：

若是你對我截圖中 Grafana 的主題配色很感興趣，能夠參考這篇文章：Grafana 自定義主題。

Kubernetes 1.18.2 1.17.5 1.16.9 1.15.12離線安裝包發佈地址http://store.lameleg.com ，歡迎體驗。使用了最新的sealos v3.3.6版本。做了主機名解析配置優化，lvscare 掛載/lib/module解決開機啓動ipvs加載問題，修復lvscare社區netlink與3.10內核不兼容問題,sealos生成百年證書等特性。更多特性 https://github.com/fanux/sealos 。歡迎掃描下方的二維碼加入釘釘羣，釘釘羣已經集成sealos的機器人實時能夠看到sealos的動態。

1. Kubernetes筆記：深入kubernetes---日誌和監控( Prometheus、Helm、PrometheusOperator、Grafana)
2. Prometheus監控k8s集合
3. 監控zabbix使用jmx監控tomcat
4. prometheus監控使用
5. 使用Admin監控
6. 使用Actuator監控
7. cacti監控使用
8. elkstack監控使用
9. 使用JConsole監控
10. Calico
更多相關文章...
• TortoiseSVN 使用教程 - SVN 教程
• Redis watch命令——監控事務 - Redis教程
• Composer 安裝與使用
• 使用Rxjava計算圓周率

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。