本節內容:node
可選的方案:git
本篇文章介紹的是Heapster + InfluxDB + Grafana,kubernetes集羣(1.6.0)搭建見前面的文章。github
開源軟件cAdvisor(Container cAdvisor)是用於監控容器運行狀態的利器之一(cAdvisor項目的主頁爲https://github.com/cAdvisor),它被用於多個與Docker相關的開源項目中。web
在kubernetes系統中,cAdvisor已經被默認集成到了kubelet組件內,當kubelet服務啓動時,它會自動啓動cAdvisor服務,而後cAdvisor會實時採集所在節點的性能指標及節點上運行的容器的性能指標。kubelet的啓動參數--cadvisor-port可自定義cAdvisor對外提供服務的端口號,默認是4194。docker
cAdvisor提供了web頁面可供瀏覽器訪問,例如本kubernetes集羣中的一個Node的ip是172.16.7.151,那麼瀏覽器輸入http://172.16.7.151:4194能夠訪問cAdvisor的監控頁面。cAdvisor主頁顯示了主機的實時運行狀態,包括CPU使用狀況、內存使用狀況、網絡吞吐量及文件系統使用狀況等信息。數據庫
可是cAdvisor只提供了單機的容器資源佔用狀況,而在大規模容器集羣中,須要對全部的Node和所有容器進行性能監控。這就須要一套工具來實現集羣性能數據的採集、存儲和展現:Heapster、InfluxDB和Grafana。vim
Heapster提供了整個集羣的資源監控,並支持持久化數據存儲到InfluxDB、Google Cloud Monitoring或者其餘的存儲後端。Heapster從kubelet提供的API採集節點和容器的資源佔用。另外,Heapster的 /metrics API提供了Prometheus格式的數據。後端
InfluxDB是一個開源分佈式時序、事件和指標數據庫;而Grafana則是InfluxDB的 dashboard,提供了強大的圖表展現功能。它們常被組合使用展現圖表化的監控數據。api
Heapster、InfluxDB和Grafana均以Pod的形式啓動和運行,其中Heapster須要與Kubernetes Master進行安全鏈接。瀏覽器
到 heapster release 頁面 下載heapster。
[root@node1 opt]# wget https://github.com/kubernetes/heapster/archive/v1.3.0.zip [root@node1 opt]# unzip v1.3.0.zip [root@node1 opt]# cd heapster-1.3.0/deploy/kube-config/influxdb [root@node1 influxdb]# ls *.yaml grafana-deployment.yaml heapster-deployment.yaml influxdb-deployment.yaml grafana-service.yaml heapster-service.yaml influxdb-service.yaml
1. 建立文件heapster-rbac.yaml
[root@node1 influxdb]# vim heapster-rbac.yaml apiVersion: v1 kind: ServiceAccount metadata: name: heapster namespace: kube-system --- kind: ClusterRoleBinding apiVersion: rbac.authorization.k8s.io/v1beta1 metadata: name: heapster subjects: - kind: ServiceAccount name: heapster namespace: kube-system roleRef: kind: ClusterRole name: cluster-admin apiGroup: rbac.authorization.k8s.io
2. 修改 grafana-deployment.yaml
[root@node1 influxdb]# vim grafana-deployment.yaml apiVersion: extensions/v1beta1 kind: Deployment metadata: name: monitoring-grafana namespace: kube-system spec: replicas: 1 template: metadata: labels: task: monitoring k8s-app: grafana spec: containers: - name: grafana image: index.tenxcloud.com/jimmy/heapster-grafana-amd64:v4.0.2 ports: - containerPort: 3000 protocol: TCP volumeMounts: - mountPath: /var name: grafana-storage env: - name: INFLUXDB_HOST value: monitoring-influxdb - name: GRAFANA_PORT value: "3000" # The following env variables are required to make Grafana accessible via # the kubernetes api-server proxy. On production clusters, we recommend # removing these env variables, setup auth for grafana, and expose the grafana # service using a LoadBalancer or a public IP. - name: GF_AUTH_BASIC_ENABLED value: "false" - name: GF_AUTH_ANONYMOUS_ENABLED value: "true" - name: GF_AUTH_ANONYMOUS_ORG_ROLE value: Admin - name: GF_SERVER_ROOT_URL # If you're only using the API Server proxy, set this value instead: value: /api/v1/proxy/namespaces/kube-system/services/monitoring-grafana/ #value: / volumes: - name: grafana-storage emptyDir: {}
【說明】:
3. 修改heapster-deployment.yaml
[root@node1 influxdb]# vim heapster-deployment.yaml apiVersion: extensions/v1beta1 kind: Deployment metadata: name: heapster namespace: kube-system spec: replicas: 1 template: metadata: labels: task: monitoring k8s-app: heapster spec: serviceAccountName: heapster containers: - name: heapster image: index.tenxcloud.com/jimmy/heapster-amd64:v1.3.0-beta.1 imagePullPolicy: IfNotPresent command: - /heapster - --source=kubernetes:https://kubernetes.default - --sink=influxdb:http://monitoring-influxdb:8086
【說明】:Heapster須要設置的啓動參數以下:
其餘參數能夠經過進入heapster容器執行 # heapster --help 命令查看和設置。
【注意】:URL中的主機名地址使用的是InfluxDB的Service名字,這須要DNS服務正常工做,若是沒有配置DNS服務,則也可使用Service的ClusterIP地址。
另外,InfluxDB服務的名稱沒有加上命名空間,是由於Heapster服務與InfluxDB服務屬於相同的命名空間kube-system。也可使用上命名空間的全服務名,例如:http://monitoring-influxdb.kube-system:8086
4. 修改 influxdb-deployment.yaml
influxdb 官方建議使用命令行或 HTTP API 接口來查詢數據庫,從 v1.1.0 版本開始默認關閉 admin UI,將在後續版本中移除 admin UI 插件。
開啓鏡像中 admin UI的辦法以下:先導出鏡像中的 influxdb 配置文件,開啓 admin 插件後,再將配置文件內容寫入 ConfigMap,最後掛載到鏡像中,達到覆蓋原始配置的目的。
# 導出鏡像中的 influxdb 配置文件 [root@node1 influxdb]# docker run --rm --entrypoint 'cat' -ti lvanneo/heapster-influxdb-amd64:v1.1.1 /etc/config.toml >config.toml.orig [root@node1 influxdb]# cp config.toml.orig config.toml # 修改配置:啓用 admin 接口 [root@node1 influxdb]# vim config.toml [admin] enabled = true # 將修改後的配置寫入到 ConfigMap 對象中(kubectl 能夠經過 --namespace 或者 -n 選項指定namespace。若是不指定, 默認爲default) [root@node1 influxdb]# kubectl create configmap influxdb-config --from-file=config.toml -n kube-system configmap "influxdb-config" created
修改influxdb-deployment.yaml:
[root@node1 influxdb]# vim influxdb-deployment.yaml apiVersion: extensions/v1beta1 kind: Deployment metadata: name: monitoring-influxdb namespace: kube-system spec: replicas: 1 template: metadata: labels: task: monitoring k8s-app: influxdb spec: containers: - name: influxdb image: index.tenxcloud.com/jimmy/heapster-influxdb-amd64:v1.1.1 volumeMounts: - mountPath: /data name: influxdb-storage - mountPath: /etc/ name: influxdb-config volumes: - name: influxdb-storage emptyDir: {} - name: influxdb-config configMap: name: influxdb-config
5. 修改 influxdb-service.yaml
[root@node1 influxdb]# vim influxdb-service.yaml apiVersion: v1 kind: Service metadata: labels: task: monitoring # For use as a Cluster add-on (https://github.com/kubernetes/kubernetes/tree/master/cluster/addons) # If you are NOT using this as an addon, you should comment out this line. kubernetes.io/cluster-service: 'true' kubernetes.io/name: monitoring-influxdb name: monitoring-influxdb namespace: kube-system spec: type: NodePort ports: - port: 8086 targetPort: 8086 name: http - port: 8083 targetPort: 8083 name: admin selector: k8s-app: influxdb
【說明】:
6. 執行全部定義文件進行安裝
[root@node1 influxdb]# pwd /opt/heapster-1.3.0/deploy/kube-config/influxdb [root@node1 influxdb]# ls grafana-deployment.yaml heapster-deployment.yaml heapster-service.yaml influxdb-deployment.yaml grafana-service.yaml heapster-rbac.yaml influxdb-cm.yaml influxdb-service.yaml [root@node1 influxdb]# kubectl create -f . deployment "monitoring-grafana" created service "monitoring-grafana" created deployment "heapster" created serviceaccount "heapster" created clusterrolebinding "heapster" created service "heapster" created deployment "monitoring-influxdb" created service "monitoring-influxdb" created
7. 檢查執行結果
(1)檢查 Deployment
# kubectl get deployments -n kube-system | grep -E 'heapster|monitoring' heapster 1 1 1 1 12m monitoring-grafana 1 1 1 1 12m monitoring-influxdb 1 1 1 1 12m
(2)檢查 Pods
# kubectl get pods -n kube-system | grep -E 'heapster|monitoring' heapster-2291216627-6hv9s 1/1 Running 0 10m monitoring-grafana-2490289118-n54fk 1/1 Running 0 10m monitoring-influxdb-1450237832-029q8 1/1 Running 0 10m
(3)檢查 kubernets dashboard 界面,看是顯示各 Nodes、Pods 的 CPU、內存、負載等利用率曲線圖
1. 經過 kube-apiserver 訪問
獲取 monitoring-grafana 服務 URL:
[root@node1 influxdb]# kubectl cluster-info Kubernetes master is running at https://172.16.7.151:6443 Heapster is running at https://172.16.7.151:6443/api/v1/proxy/namespaces/kube-system/services/heapster KubeDNS is running at https://172.16.7.151:6443/api/v1/proxy/namespaces/kube-system/services/kube-dns kubernetes-dashboard is running at https://172.16.7.151:6443/api/v1/proxy/namespaces/kube-system/services/kubernetes-dashboard monitoring-grafana is running at https://172.16.7.151:6443/api/v1/proxy/namespaces/kube-system/services/monitoring-grafana monitoring-influxdb is running at https://172.16.7.151:6443/api/v1/proxy/namespaces/kube-system/services/monitoring-influxdb To further debug and diagnose cluster problems, use 'kubectl cluster-info dump'.
瀏覽器訪問 URL: http://172.16.7.151:8080/api/v1/proxy/namespaces/kube-system/services/monitoring-grafana
2. 經過 kubectl proxy 訪問
建立代理:
# kubectl proxy --address='172.16.7.151' --port=8086 --accept-hosts='^*$'
瀏覽器訪問 URL:http://172.16.7.151:8086/api/v1/proxy/namespaces/kube-system/services/monitoring-grafana
3. Grafana頁面查看和操做
瀏覽器訪問 URL: http://172.16.7.151:8080/api/v1/proxy/namespaces/kube-system/services/monitoring-grafana
點擊「Home」下拉列表,選擇cluster,以下圖。圖中顯示了Cluster集羣的總體信息,以折線圖的形式展現了集羣範圍內各Node的CPU使用率、內存使用狀況等信息。
點擊「Home」下拉列表,選擇Pods,以下圖。圖中展現了Pod的信息,以折線圖的形式展現了集羣範圍內各Pod的CPU使用率、內存使用狀況、網絡流量、文件系統使用狀況等信息。
獲取 influxdb http 8086 映射的 NodePort:
[root@node1 influxdb]# kubectl get svc -n kube-system|grep influxdb monitoring-influxdb 10.254.66.133 <nodes> 8086:32570/TCP,8083:31601/TCP 17m
經過 kube-apiserver 的非安全端口訪問 influxdb 的 admin UI 界面:http://172.16.7.151:8080/api/v1/proxy/namespaces/kube-system/services/monitoring-influxdb:8083/
在頁面的 「Connection Settings」 的 Host 中輸入 node IP, Port 中輸入 8086 映射的 nodePort 如上面的 32570,點擊 「Save」 便可(個人集羣中的地址是172.16.7.151:32570)。
經過右上角齒輪按鈕能夠修改鏈接屬性。單擊右上角的Database下拉列表能夠選擇數據庫,heapster建立的數據庫名爲k8s。
metric名稱 | 說明 |
cpu/limit | CPU hard limit,單位爲毫秒 |
cpu/usage | 所有Core的CPU累計使用時間 |
cpu/usage_rate | 所有Core的CPU累計使用率,單位爲毫秒 |
filesystem/limit | 文件系統總空間限制,單位爲字節 |
filesystem/usage | 文件系統已用的空間,單位爲字節 |
memory/limit | Memory hard limit,單位爲字節 |
memory/major_page_faults | major page faults數量 |
memory/major_page_faults_rate | 每秒的major page faults數量 |
memory/node_allocatable | Node可分配的內存容量 |
memory/node_capacity | Node的內存容量 |
memory/node_reservation | Node保留的內存share |
memory/node_utilization | Node的內存使用值 |
memory/page_faults | page faults數量 |
memory/page_faults_rate | 每秒的page faults數量 |
memory/request | Memory request,單位爲字節 |
memory/usage | 總內存使用量 |
memory/working_set | 總的Working set usage,Working set是指不會被kernel移除的內存 |
network/rx | 累計接收的網絡流量字節數 |
network/rx_errors | 累計接收的網絡流量錯誤數 |
network/rx_errors_rate | 每秒接收的網絡流量錯誤數 |
network/rx_rate | 每秒接收的網絡流量字節數 |
network/tx | 累計發送的網絡流量字節數 |
network/tx_errors | 累計發送的網絡流量錯誤數 |
network/tx_errors_rate | 每秒發送的網絡流量錯誤數 |
network/tx_rate | 每秒發送的網絡流量字節數 |
uptime | 容器啓動總時長 |
每一個metric能夠看做一張數據庫表,表中每條記錄由一組label組成,能夠當作字段。以下表所示:
Label名稱 | 說明 |
pod_id | 系統生成的Pod惟一名稱 |
pod_name | 用戶指定的Pod名稱 |
pod_namespace | Pod所屬的namespace |
container_base_image | 容器的鏡像名稱 |
container_name | 用戶指定的容器名稱 |
host_id | 用戶指定的Node主機名 |
hostname | 容器運行所在主機名 |
labels | 逗號分隔的Label列表 |
namespace_id | Pod所屬的namespace的UID |
resource_id | 資源ID |
可使用SQL SELECT語句對每一個metric進行查詢,例如查詢CPU的使用時間:
select * from "cpu/usage" limit 10
結果以下圖所示: