原文連接:https://fuckcloudnative.io/posts/monitoring-calico-with-prometheus-operator/node
Calico
中最核心的組件就是 Felix
,它負責設置路由表和 ACL 規則等,以便爲該主機上的 endpoints 資源正常運行提供所需的網絡鏈接。同時它還負責提供有關網絡健康情況的數據(例如,報告配置其主機時發生的錯誤和問題),這些數據會被寫入 etcd,以使其對網絡中的其餘組件和操做人員可見。git
因而可知,對於咱們的監控來講,監控 Calico 的核心即是監控 Felix
,Felix
就至關於 Calico 的大腦。本文將學習如何使用 Prometheus-Operator
來監控 Calico。github
本文不會涉及到
Calico
和Prometheus-Operator
的部署細節,若是不知道如何部署,請查閱官方文檔和相關博客。json
默認狀況下 Felix 的指標是被禁用的,必須經過命令行管理工具 calicoctl
手動更改 Felix 配置才能開啓,須要提早配置好命令行管理工具。後端
本文使用的 Calico 版本是 v3.15.0
,其餘版本相似。先下載管理工具:api
$ wget https://github.com/projectcalico/calicoctl/releases/download/v3.15.0/calicoctl -O /usr/local/bin/calicoctl $ chmod +x /usr/local/bin/calicoctl
接下來須要設置 calicoctl 配置文件(默認是 /etc/calico/calicoctl.cfg
)。若是你的 Calico 後端存儲使用的是 Kubernetes API
,那麼配置文件內容以下:bash
apiVersion: projectcalico.org/v3 kind: CalicoAPIConfig metadata: spec: datastoreType: "kubernetes" kubeconfig: "/root/.kube/config"
若是 Calico 後端存儲使用的是 etcd
,那麼配置文件內容以下:網絡
apiVersion: projectcalico.org/v3 kind: CalicoAPIConfig metadata: spec: datastoreType: "etcdv3" etcdEndpoints: https://192.168.57.51:2379,https://192.168.57.52:2379,https://192.168.57.53:2379 etcdKeyFile: /opt/kubernetes/ssl/server-key.pem etcdCertFile: /opt/kubernetes/ssl/server.pem etcdCACertFile: /opt/kubernetes/ssl/ca.pem
你須要將其中的證書路徑換成你的 etcd 證書路徑。app
配置好了 calicoctl
以後就能夠查看或修改 Calico 的配置了,先來看一下默認的 Felix
配置:curl
$ calicoctl get felixConfiguration default -o yaml apiVersion: projectcalico.org/v3 kind: FelixConfiguration metadata: creationTimestamp: "2020-06-25T14:37:28Z" name: default resourceVersion: "269031" uid: 52146c95-ff97-40a9-9ba7-7c3b4dd3ba57 spec: bpfLogLevel: "" ipipEnabled: true logSeverityScreen: Info reportingInterval: 0s
能夠看到默認的配置中沒有啓用指標,須要手動修改配置,命令以下:
$ calicoctl patch felixConfiguration default --patch '{"spec":{"prometheusMetricsEnabled": true}}'
Felix
暴露指標的端口是 9091
,可經過檢查監聽端口來驗證是否開啓指標:
$ ss -tulnp|grep 9091 tcp LISTEN 0 4096 [::]:9091 [::]:* users:(("calico-node",pid=13761,fd=9)) $ curl -s http://localhost:9091/metrics # HELP felix_active_local_endpoints Number of active endpoints on this host. # TYPE felix_active_local_endpoints gauge felix_active_local_endpoints 1 # HELP felix_active_local_policies Number of active policies on this host. # TYPE felix_active_local_policies gauge felix_active_local_policies 0 # HELP felix_active_local_selectors Number of active selectors on this host. # TYPE felix_active_local_selectors gauge felix_active_local_selectors 0 ...
啓用了 Felix
的指標後,就能夠經過 Prometheus-Operator
來採集指標數據了。Prometheus-Operator 在部署時會建立 Prometheus
、PodMonitor
、ServiceMonitor
、AlertManager
和 PrometheusRule
這 5 個 CRD 資源對象,而後會一直監控並維持這 5 個資源對象的狀態。其中 Prometheus
這個資源對象就是對 Prometheus Server 的抽象。而 PodMonitor
和 ServiceMonitor
就是 exporter
的各類抽象,是用來提供專門提供指標數據接口的工具,Prometheus 就是經過 PodMonitor
和 ServiceMonitor
提供的指標數據接口去 pull
數據的。
ServiceMonitor
要求被監控的服務必須有對應的 Service
,而 PodMonitor
則不須要,本文選擇使用 PodMonitor
來採集 Felix 的指標。
PodMonitor
雖然不須要應用建立相應的 Service
,但必須在 Pod 中指定指標的端口和名稱,所以須要先修改 DaemonSet calico-node
的配置,指定端口和名稱。先用如下命令打開 DaemonSet calico-node
的配置:
$ kubectl -n kube-system edit ds calico-node
而後在線修改,在 spec.template.sepc.containers
中加入如下內容:
ports: - containerPort: 9091 name: http-metrics protocol: TCP
建立 Pod 對應的 PodMonitor
:
# prometheus-podMonitorCalico.yaml apiVersion: monitoring.coreos.com/v1 kind: PodMonitor metadata: labels: k8s-app: calico-node name: felix namespace: monitoring spec: podMetricsEndpoints: - interval: 15s path: /metrics port: http-metrics namespaceSelector: matchNames: - kube-system selector: matchLabels: k8s-app: calico-node
$ kubectl apply -f prometheus-podMonitorCalico.yaml
有幾個參數須要注意:
PodMonitor 的 name 最終會反應到 Prometheus 的配置中,做爲 job_name
。
podMetricsEndpoints.port
須要和被監控的 Pod 中的 ports.name
相同,此處爲 http-metrics
。
namespaceSelector.matchNames
須要和被監控的 Pod 所在的 namespace 相同,此處爲 kube-system
。
selector.matchLabels
的標籤必須和被監控的 Pod 中能惟一標明身份的標籤對應。
最終 Prometheus-Operator 會根據 PodMonitor
來修改 Prometheus 的配置文件,以實現對相關的 Pod 進行監控。能夠打開 Prometheus 的 UI 查看監控目標:
注意 Labels 中有 pod="calico-node-xxx"
,代表監控的是 Pod。
採集完指標以後,就能夠經過 Grafana
的儀表盤來展現監控指標了。Prometheus-Operator
中部署的 Grafana 沒法實時修改儀表盤的配置(必須提早將儀表盤的 json 文件掛載到 Grafana Pod 中),並且也不是最新版(7.0
以上版本),因此我選擇刪除 Prometheus-Operator 自帶的 Grafana,自行部署 helm 倉庫中的 Grafana。先進入 kube-prometheus
項目的 manifests
目錄,而後將 Grafana 相關的部署清單都移到同一個目錄下,再刪除 Grafana:
$ cd kube-prometheus/manifests $ mkdir grafana $ mv grafana-* grafana/ $ kubectl delete -f grafana/
而後經過 helm
部署最新的 Grafana:
$ helm install grafana stable/grafana -n monitoring
訪問 Grafana 的密碼保存在 Secret
中,能夠經過如下命令查看:
$ kubectl -n monitoring get secret grafana -o yaml apiVersion: v1 data: admin-password: MnpoV3VaMGd1b3R3TDY5d3JwOXlIak4yZ3B2cTU1RFNKcVY0RWZsUw== admin-user: YWRtaW4= ldap-toml: "" kind: Secret metadata: ...
對密碼進行解密:
$ echo -n "MnpoV3VaMGd1b3R3TDY5d3JwOXlIak4yZ3B2cTU1RFNKcVY0RWZsUw=="|base64 -d
解密出來的信息就是訪問密碼。用戶名是 admin
。經過用戶名和密碼登陸 Grafana 的 UI:
添加 Prometheus-Operator 的數據源:
Calico 官方沒有單獨 dashboard json,而是將其放到了 ConfigMap 中,咱們須要從中提取須要的 json,提取出 felix-dashboard.json
的內容,而後將其中的 datasource
值替換爲 prometheus
。你能夠用 sed
替換,也能夠用編輯器,大多數編輯器都有全局替換的功能。若是你實在不知道如何提取,可使用我提取好的 json:
修改完了以後,將 json 內容導入到 Grafana:
最後獲得的 Felix
儀表盤以下圖所示:
若是你對我截圖中 Grafana 的主題配色很感興趣,能夠參考這篇文章:Grafana 自定義主題。
Kubernetes 1.18.2 1.17.5 1.16.9 1.15.12離線安裝包發佈地址http://store.lameleg.com ,歡迎體驗。 使用了最新的sealos v3.3.6版本。 做了主機名解析配置優化,lvscare 掛載/lib/module解決開機啓動ipvs加載問題, 修復lvscare社區netlink與3.10內核不兼容問題,sealos生成百年證書等特性。更多特性 https://github.com/fanux/sealos 。歡迎掃描下方的二維碼加入釘釘羣 ,釘釘羣已經集成sealos的機器人實時能夠看到sealos的動態。