Prometheus基於Golang編寫,編譯後的軟件包,不依賴於任何的第三方依賴。用戶只須要下載對應平臺的二進制包,解壓而且添加基本的配置便可正常啓動Prometheus Server。html
一、下載安裝包node
爲您的平臺下載最新版本的Prometheus,而後解壓縮並運行它:mysql
https://prometheus.io/download/git
https://prometheus.io/docs/prometheus/latest/getting_started/github
tar xvfz prometheus-*.tar.gz cd prometheus-* mv prometheus-* /usr/local/prometheus
Centos7上,註冊爲服務:web
cat /usr/lib/systemd/system/prometheus.service sql
[Unit] Description=https://prometheus.io [Service] Restart=on-failure ExecStart=/usr/local/prometheus/prometheus --config.file=/usr/local/prometheus/prometheus.yml [Install] WantedBy=multi-user.target
Centos6上,註冊爲服務:docker
#!/bin/bash # # Comments to support chkconfig # chkconfig: 2345 98 02 # description: prometheus service script # # Source function library. . /etc/init.d/functions ### Default variables prog_name="prometheus" config_file="/usr/local/${prog_name}/${prog_name}.yml" prog_path="/usr/local/${prog_name}/${prog_name}" data_path="/usr/local/${prog_name}/data" pidfile="/var/run/${prog_name}.pid" prog_logs="/var/log/${prog_name}.log" #啓動項,監聽本地9090端口,支持配置熱加載 options="--web.listen-address=0.0.0.0:9090 --config.file=${config_file} --storage.tsdb.path=${data_path}" DESC="Prometheus Server" # Check if requirements are met [ -x "${prog_path}" ] || exit 1 RETVAL=0 start(){ action $"Starting $DESC..." su -s /bin/sh -c "nohup $prog_path $options >> $prog_logs 2>&1 &" 2> /dev/null RETVAL=$? PID=$(pidof ${prog_path}) [ ! -z "${PID}" ] && echo ${PID} > ${pidfile} echo [ $RETVAL -eq 0 ] && touch /var/lock/subsys/$prog_name return $RETVAL } stop(){ echo -n $"Shutting down $prog_name: " killproc -p ${pidfile} RETVAL=$? echo [ $RETVAL -eq 0 ] && rm -f /var/lock/subsys/$prog_name return $RETVAL } restart() { stop start } case "$1" in start) start ;; stop) stop ;; restart) restart ;; status) status $prog_path RETVAL=$? ;; *) echo $"Usage: $0 {start|stop|restart|status}" RETVAL=1 esac exit $RETVAL
Centos7:數據庫
systemctl start prometheusapi
Centos6:
service prometheus start
https://prometheus.io/docs/prometheus/latest/installation/
prometheus.yml
經過運行如下命令將您從主機綁定:
docker run -p 9090:9090 -v /tmp/prometheus.yml:/etc/prometheus/prometheus.yml \ prom/prometheus
或者爲配置使用額外的卷:
docker run -p 9090:9090 -v /prometheus-data \ prom/prometheus --config.file=/prometheus-data/prometheus.yml
http://localhost:9090訪問本身的狀態頁面
能夠經過訪問localhost:9090驗證Prometheus自身的指標:localhost:9090/metrics
Prometheus從目標機上經過http方式拉取採樣點數據, 它也能夠拉取自身服務數據並監控自身的健康情況
固然Prometheus服務拉取自身服務採樣數據,並無多大的用處,可是它是一個好的DEMO。保存下面的Prometheus配置,並命名爲:prometheus.yml:
global: scrape_interval: 15s # 默認狀況下,每15s拉取一次目標採樣點數據。 # 咱們能夠附加一些指定標籤到採樣點度量標籤列表中, 用於和第三方系統進行通訊, 包括:federation, remote storage, Alertmanager external_labels: monitor: 'codelab-monitor' # 下面就是拉取自身服務採樣點數據配置 scrape_configs: # job名稱會增長到拉取到的全部採樣點上,同時還有一個instance目標服務的host:port標籤也會增長到採樣點上 - job_name: 'prometheus' # 覆蓋global的採樣點,拉取時間間隔5s scrape_interval: 5s static_configs: - targets: ['localhost:9090']
重啓promethues服務。
經過http://10.11.100.99:9090/targets,就能夠查看到了:
配置文件的格式是YAML,使用--config.file指定配置文件的位置。本節列出重要的配置項。
有關配置選項的完整,請參閱:https://prometheus.io/docs/prometheus/latest/configuration/configuration/
Prometheus以scrape_interval規則週期性從監控目標上收集數據,而後將數據存儲到本地存儲上。scrape_interval能夠設定全局也能夠設定單個metrics。
Prometheus以evaluation_interval規則週期性對告警規則作計算,而後更新告警狀態。evaluation_interval只有設定在全局。
global:全局配置
alerting:告警配置
rule_files:告警規則
scrape_configs:配置數據源,稱爲target,每一個target用job_name命名。又分爲靜態配置和服務發現
global: # 默認抓取週期,設置每15s採集數據一次,默認1分鐘 [ scrape_interval: <duration> | default = 1m ] # 默認抓取超時 [ scrape_timeout: <duration> | default = 10s ] # 估算規則的默認週期 # 每15秒計算一次規則。默認1分鐘 [ evaluation_interval: <duration> | default = 1m ] # 和外部系統(例如AlertManager)通訊時爲時間序列或者警情(Alert)強制添加的標籤列表 external_labels: [ <labelname>: <labelvalue> ... ] # 規則文件列表 rule_files: [ - <filepath_glob> ... ] # 抓取配置列表 scrape_configs: [ - <scrape_config> ... ] # Alertmanager相關配置 alerting: alert_relabel_configs: [ - <relabel_config> ... ] alertmanagers: [ - <alertmanager_config> ... ] # 遠程讀寫特性相關的配置 remote_write: [ - <remote_write> ... ] remote_read: [ - <remote_read> ... ]
其中,比較重要的配置爲scrape_configs.
根據配置的任務(job)以http/s週期性的收刮(scrape/pull)
指定目標(target)上的指標(metric)。目標(target)
能夠以靜態方式或者自動發現方式指定。Prometheus將收刮(scrape)的指標(metric)保存在本地或者遠程存儲上。
使用scrape_configs定義採集目標
配置一系列的目標,以及如何抓取它們的參數。通常狀況下,每一個scrape_config對應單個Job。
目標能夠在scrape_config中靜態的配置,也可使用某種服務發現機制動態發現。
# 任務名稱,自動做爲抓取到的指標的一個標籤 job_name: <job_name> # 抓取週期 [ scrape_interval: <duration> | default = <global_config.scrape_interval> ] # 每次抓取的超時 [ scrape_timeout: <duration> | default = <global_config.scrape_timeout> ] # 從目標抓取指標的URL路徑 [ metrics_path: <path> | default = /metrics ] # 當添加標籤發現指標已經有同名標籤時,是否保留原有標籤不覆蓋 [ honor_labels: <boolean> | default = false ] # 抓取協議 [ scheme: <scheme> | default = http ] # HTTP請求參數 params: [ <string>: [<string>, ...] ] # 身份驗證信息 basic_auth: [ username: <string> ] [ password: <secret> ] [ password_file: <string> ] # Authorization請求頭取值 [ bearer_token: <secret> ] # 從文件讀取Authorization請求頭 [ bearer_token_file: /path/to/bearer/token/file ] # TLS配置 tls_config: [ <tls_config> ] # 代理配置 [ proxy_url: <string> ] # DNS服務發現配置 dns_sd_configs: [ - <dns_sd_config> ... ] # 文件服務發現配置 file_sd_configs: [ - <file_sd_config> ... ] # K8S服務發現配置 kubernetes_sd_configs: [ - <kubernetes_sd_config> ... ] # 此Job的靜態配置的目標列表,用的最多的配置!!! static_configs: [ - <static_config> ... ] # 目標重打標籤配置 relabel_configs: [ - <relabel_config> ... ] # 指標重打標籤配置 metric_relabel_configs: [ - <relabel_config> ... ] # 每次抓取容許的最大樣本數量,若是在指標重打標籤後,樣本數量仍然超過限制,則整個抓取認爲失敗 # 0表示不限制 [ sample_limit: <int> | default = 0
三、relabel_configs
relabel_configs :容許在採集以前對任何目標及其標籤進行修改
從新標籤的意義?
action:從新標籤動做
支持服務發現的來源:
Prometheus也提供了服務發現功能,能夠從consul,dns,kubernetes,file等等多種來源發現新的目標。
其中最簡單的是從文件發現服務。
https://github.com/prometheus/prometheus/tree/master/discovery
服務發現支持: endpoints,ingress,kubernetes,node,pod,service
node_exporter:用於*NIX系統監控,使用Go語言編寫的收集器。
使用文檔:https://prometheus.io/docs/guides/node-exporter/
GitHub:https://github.com/prometheus/node_exporter
exporter列表:https://prometheus.io/docs/instrumenting/exporters/
收集到 node_exporter 的數據後,咱們可使用 PromQL 進行一些業務查詢和監控,下面是一些比較常見的查詢。
注意:如下查詢均以單個節點做爲例子,若是你們想查看全部節點,將 instance="xxx" 去掉便可。
CPU使用率: 100 - (avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) * 100) 內存使用率: 100 - (node_memory_MemFree_bytes+node_memory_Cached_bytes+node_memory_Buffers_bytes) / node_memory_MemTotal_bytes * 100 磁盤使用率: 100 - (node_filesystem_free_bytes{mountpoint="/",fstype=~"ext4|xfs"} / node_filesystem_size_bytes{mountpoint="/",fstype=~"ext4|xfs"} * 100)
mysql_exporter:用於收集MySQL性能信息。
https://github.com/prometheus/mysqld_exporter
https://grafana.com/dashboards/7362
登陸mysql爲exporter建立帳號: mysql> CREATE USER 'exporter'@'localhost' IDENTIFIED BY 'XXXXXXXX' WITH MAX_USER_CONNECTIONS 3; mysql> GRANT PROCESS, REPLICATION CLIENT, SELECT ON *.* TO 'exporter'@'localhost'; # cat .my.cnf [client] user=exporter password=exporter123 # ./mysqld_exporter --config.my-cnf=.my.cnf - job_name: 'mysql' static_configs: - targets: ['localhost:9104']
Grafana是一個開源的最近很是流行的度量分析和可視化工具。
https://grafana.com/grafana/download
Grafana支持查詢普羅米修斯。自Grafana 2.5.0(2015-10-28)以來,包含了Prometheus的Grafana數據源。
Grafana.com維護着一組共享儀表板 ,能夠下載並與Grafana的獨立實例一塊兒使用。
好比
https://grafana.com/dashboards/9276
告警無疑是監控中很是重要的環節,雖然監控數據可視化了,也很是容易觀察到運行狀態。但咱們很難作到時刻盯着監控,因此程序來幫巡檢並自動告警,這個程序是幕後英雄,保障業務穩定性就靠它了。
前面講到過Prometheus的報警功能主要是利用Alertmanager這個組件。當Alertmanager接收到 Prometheus 端發送過來的 Alerts 時,Alertmanager 會對 Alerts 進行去重複,分組,按標籤內容發送不一樣報警組,包括:郵件,微信,webhook。
使用prometheus進行告警分爲兩部分:Prometheus Server中的告警規則會向Alertmanager發送。而後,Alertmanager管理這些告警,包括進行重複數據刪除,分組和路由,以及告警的靜默和抑制。
在Prometheus平臺中,警報由獨立的組件Alertmanager處理。一般狀況下,咱們首先告訴Prometheus Alertmanager所在的位置,而後在Prometheus配置中建立警報規則,最後配置Alertmanager來處理警報併發送給接收者(郵件,webhook、slack等)。
地址1:https://prometheus.io/download/
地址2:https://github.com/prometheus/alertmanager/releases
註冊爲服務
#!/bin/bash # # Comments to support chkconfig # chkconfig: 2345 98 02 # description: prometheus service script # # Source function library. . /etc/init.d/functions ### Default variables base_name="alertmanager" prog_name="alertmanager" config_file="/usr/local/${base_name}/${prog_name}.yml" prog_path="/usr/local/${base_name}/${prog_name}" data_path="/usr/local/${base_name}/data" pidfile="/var/run/${porg_name}.pid" prog_logs="/var/log/${prog_name}.log" #啓動項,監聽本地9090端口,支持配置熱加載 options="--config.file=${config_file}" DESC="altermanager" # Check if requirements are met [ -x "${prog_path}" ] || exit 1 RETVAL=0 start(){ action $"Starting $DESC..." su -s /bin/sh -c "nohup $prog_path $options>> $prog_logs 2>&1 &" 2> /dev/null RETVAL=$? PID=$(pidof ${prog_path}) [ ! -z "${PID}" ] && echo ${PID} > ${pidfile} echo [ $RETVAL -eq 0 ] && touch /var/lock/subsys/$prog_name return $RETVAL } stop(){ echo -n $"Shutting down $prog_name: " killproc -p ${pidfile} RETVAL=$? echo [ $RETVAL -eq 0 ] && rm -f /var/lock/subsys/$prog_name return $RETVAL } restart() { stop start } case "$1" in start) start ;; stop) stop ;; restart) restart ;; status) status $prog_path RETVAL=$? ;; *) echo $"Usage: $0 {start|stop|restart|status}" RETVAL=1 esac exit $RETVAL
啓動Alertmanager
service alertmanager start
一個完整的alertmanager.yml以下:
# 全局配置項 global: resolve_timeout: 5m #處理超時時間,默認爲5min smtp_smarthost: 'smtp.sina.com:25' # 郵箱smtp服務器代理 smtp_from: '******@sina.com' # 發送郵箱名稱 smtp_auth_username: '******@sina.com' # 郵箱名稱 smtp_auth_password: '******' # 郵箱密碼或受權碼 wechat_api_url: 'https://qyapi.weixin.qq.com/cgi-bin/' # 企業微信地址 # 定義模板信心 templates: - 'template/*.tmpl' # 定義路由樹信息 route: group_by: ['alertname'] # 報警分組依據 group_wait: 10s # 最初即第一次等待多久時間發送一組警報的通知 group_interval: 10s # 在發送新警報前的等待時間 repeat_interval: 1m # 發送重複警報的週期 對於email配置中,此項不能夠設置太低,不然將會因爲郵件發送太多頻繁,被smtp服務器拒絕 receiver: 'email' # 發送警報的接收者的名稱,如下receivers name的名稱 # 定義警報接收者信息 receivers: - name: 'email' # 警報 email_configs: # 郵箱配置 - to: '******@163.com' # 接收警報的email配置 html: '{{ template "test.html" . }}' # 設定郵箱的內容模板 headers: { Subject: "[WARN] 報警郵件"} # 接收郵件的標題 webhook_configs: # webhook配置 - url: 'http://127.0.0.1:5001' send_resolved: true wechat_configs: # 企業微信報警配置 - send_resolved: true to_party: '1' # 接收組的id agent_id: '1000002' # (企業微信-->自定應用-->AgentId) corp_id: '******' # 企業信息(個人企業-->CorpId[在底部]) api_secret: '******' # 企業微信(企業微信-->自定應用-->Secret) message: '{{ template "test_wechat.html" . }}' # 發送消息模板的設定 # 一個inhibition規則是在與另外一組匹配器匹配的警報存在的條件下,使匹配一組匹配器的警報失效的規則。兩個警報必須具備一組相同的標籤。 inhibit_rules: - source_match: severity: 'critical' target_match: severity: 'warning' equal: ['alertname', 'dev', 'instance']
設置告警和通知的主要步驟以下:
a、配置Prometheus與Alertmanager通訊
# vi prometheus.yml alerting: alertmanagers: - static_configs: - targets: - 127.0.0.1:9093
b、在Prometheus中建立告警規則
# vi prometheus.yml rule_files: - "rules/*.yml" # vi rules/node.yml groups: - name: example # 報警規則組名稱 rules: # 任何實例5分鐘內沒法訪問發出告警 - alert: InstanceDown expr: up == 0 for: 5m #持續時間 , 表示持續一分鐘獲取不到信息,則觸發報警 labels: severity: page # 自定義標籤 annotations: summary: "Instance {{ $labels.instance }} down" # 自定義摘要 description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 5 minutes." # 自定義具體描述
c、觸發告警
d、告警狀態
一旦這些警報存儲在Alertmanager,它們可能處於如下任何狀態:
這樣目的是屢次判斷失敗才發告警,減小郵件。
route
屬性用來設置報警的分發策略,它是一個樹狀結構,按照深度優先從左向右的順序進行匹配。
route: receiver: 'default-receiver' group_wait: 30s group_interval: 5m repeat_interval: 4h group_by: [cluster, alertname] # 全部不匹配如下子路由的告警都將保留在根節點,併發送到「default-receiver」 routes: # 全部service=mysql或者service=cassandra的告警分配到數據庫接收端 - receiver: 'database-pager' group_wait: 10s match_re: service: mysql|cassandra # 全部帶有team=frontend標籤的告警都與此子路由匹配 # 它們是按產品和環境分組的,而不是集羣 - receiver: 'frontend-pager' group_by: [product, environment] match: team: frontend
group_by
:報警分組依據
group_wait
:爲一個組發送通知的初始等待時間,默認30s
group_interval
:在發送新告警前的等待時間。一般5m或以上
repeat_interval
:發送重複告警的週期。若是已經發送了通知,再次發送以前須要等待多長時間。一般3小時或以上
主要處理流程:
告警面臨最大問題,是警報太多,至關於狼來了的形式。收件人很容易麻木,再也不繼續理會。關鍵的告警經常被淹沒。在一問題中,alertmanger在必定程度上獲得很好解決。
Prometheus成功的把一條告警發給了Altermanager,而Altermanager並非簡簡單單的直接發送出去,這樣就會致使告警信息過多,重要告警被淹沒。因此須要對告警作合理的收斂。
告警收斂手段:
分組(group):將相似性質的警報分類爲單個通知
抑制(Inhibition):當警報發出後,中止重複發送由此警報引起的其餘警報
靜默(Silences):是一種簡單的特定時間靜音提醒的機制
報警處理流程以下:
# cat rules/general.yml groups: - name: general.rules rules: - alert: InstanceDown expr: up == 0 for: 2m labels: severity: error annotations: summary: "Instance {{ $labels.instance }} 中止工做" description: "{{ $labels.instance }}: job {{ $labels.job }} 已經中止5分鐘以上." # cat rules/node.yml groups: - name: node.rules rules: - alert: NodeFilesystemUsage expr: 100 - (node_filesystem_free_bytes{fstype=~"ext4|xfs"} / node_filesystem_size_bytes{fstype=~"ext4|xfs"} * 100) > 80 for: 2m labels: severity: warning annotations: summary: "{{$labels.instance}}: {{$labels.mountpoint }} 分區使用太高" description: "{{$labels.instance}}: {{$labels.mountpoint }} 分區使用大於 80% (當前值: {{ $value }})" - alert: NodeMemoryUsage expr: 100 - (node_memory_MemFree_bytes+node_memory_Cached_bytes+node_memory_Buffers_bytes) / node_memory_MemTotal_bytes * 100 > 80 for: 2m labels: severity: warning annotations: summary: "{{$labels.instance}}: 內存使用太高" description: "{{$labels.instance}}: 內存使用大於 80% (當前值: {{ $value }})" - alert: NodeCPUUsage expr: 100 - (avg(irate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) * 100) > 80 for: 2m labels: severity: warning annotations: summary: "{{$labels.instance}}: CPU使用太高" description: "{{$labels.instance}}: CPU使用大於 80% (當前值: {{ $value }})" # cat rules/reload.yml groups: - name: prometheus.rules rules: - alert: AlertmanagerReloadFailed expr: alertmanager_config_last_reload_successful == 0 for: 10m labels: severity: warning annotations: summary: "{{$labels.instance}}: Alertmanager配置從新加載失敗" description: "{{$labels.instance}}: Alertmanager配置從新加載失敗" - alert: PrometheusReloadFailed expr: prometheus_config_last_reload_successful == 0 for: 10m labels: severity: warning annotations: summary: "{{$labels.instance}}: Prometheus配置從新加載失敗" description: "{{$labels.instance}}: Prometheus配置從新加載失敗"