一條502報警引起的胡思亂想

安心倒計時

忙完了今天的工做, 終於到了週五,能夠好好休息下了。php

睡夢驚醒

就在安心養神的時候, 同事轉給了我一條nginx 502的報警, 趕忙去線上一頓排查。nginx

首先得先找出哪臺機器報出的(同時喊運維看下線上負載狀況), 發現01機器的nginx日誌在報警時間點的錯誤信息:數據庫

*272881176 recv() failed (104: Connection reset by peer) while reading response header from upstream, client: xx.xx.xx.xx, server: , request: "POST /xxx/xxx HTTP/1.1", upstream: "fastcgi://127.0.0.1:9000", host: "xx.xx.xx.xx:8081"centos

recv()爲接收返回數據的系統函數,基本能夠先認爲報錯緣由爲bash

Nginx發現某服務與本身通訊的鏈接斷掉了,就會返回給客戶端502錯誤。服務器

那麼nginx是從哪裏接收數據呢,報錯信息一樣很明顯,fastcgi://127.0.0.1:9000運維

思考原因

一樣思考爲何php的處理進程會中斷呢?socket

  1. 莫非執行任務超時,fpm主動殺死?
  2. 又莫非系統資源不足,系統殺死

一樣針對這兩種狀況,排查結果:tcp

  1. 報警的此接口並非特別複雜的接口,執行時間也並不長,之前也並未出現過問題
  2. 經過zabbix、埋點監控、系統負載查看,cpu、內存、fpm總體進程狀況也比較正常

順便也看了下 fpm的錯誤日誌、慢日誌,也沒有什麼收穫(此處極可能會忽略掉了重要信息)分佈式

蛛絲馬跡

因而既然認爲是fpm出了問題,就調研下fpm的配置文件吧

pid = /usr/local/var/run/php-fpm.pid
#pid設置,必定要開啓,上面是Mac平臺的。默認在php安裝目錄中的var/run/php-fpm.pid。好比centos的在: /usr/local/php/var/run/php-fpm.pid
error_log  = /usr/local/var/log/php-fpm.log
#錯誤日誌,上面是Mac平臺的,默認在php安裝目錄中的var/log/php-fpm.log,好比centos的在: /usr/local/php/var/log/php-fpm.log
log_level = notice
#錯誤級別. 上面的php-fpm.log紀錄的登記。可用級別爲: alert(必須當即處理), error(錯誤狀況), warning(警告狀況), notice(通常重要信息), debug(調試信息). 默認: notice.
emergency_restart_threshold = 60
emergency_restart_interval = 60s
#表示在emergency_restart_interval所設值內出現SIGSEGV或者SIGBUS錯誤的php-cgi進程數若是超過 emergency_restart_threshold個,php-fpm就會優雅重啓。這兩個選項通常保持默認值。0 表示 '關閉該功能'. 默認值: 0 (關閉).
process_control_timeout = 0
#設置子進程接受主進程複用信號的超時時間. 可用單位: s(秒), m(分), h(小時), 或者 d(天) 默認單位: s(秒). 默認值: 0.
daemonize = yes
#後臺執行fpm,默認值爲yes,若是爲了調試能夠改成no。在FPM中,可使用不一樣的設置來運行多個進程池。 這些設置能夠針對每一個進程池單獨設置。
listen = 127.0.0.1:9000
#fpm監聽端口,即nginx中php處理的地址,通常默認值便可。可用格式爲: 'ip:port', 'port', '/path/to/unix/socket'. 每一個進程池都須要設置。若是nginx和php在不一樣的機器上,分佈式處理,就設置ip這裏就能夠了。
listen.backlog = -1
#backlog數,設置 listen 的半鏈接隊列長度,-1表示無限制,由操做系統決定,此行註釋掉就行。backlog含義參考:http://www.3gyou.cc/?p=41
listen.allowed_clients = 127.0.0.1
#容許訪問FastCGI進程的IP白名單,設置any爲不限制IP,若是要設置其餘主機的nginx也能訪問這臺FPM進程,listen處要設置成本地可被訪問的IP。默認值是any。每一個地址是用逗號分隔. 若是沒有設置或者爲空,則容許任何服務器請求鏈接。
listen.owner = www
listen.group = www
listen.mode = 0666
#unix socket設置選項,若是使用tcp方式訪問,這裏註釋便可。
user = www
group = www
#啓動進程的用戶和用戶組,FPM 進程運行的Unix用戶, 必需要設置。用戶組,若是沒有設置,則默認用戶的組被使用。
pm = dynamic 
#php-fpm進程啓動模式,pm能夠設置爲static和dynamic和ondemand
#若是選擇static,則進程數就數固定的,由pm.max_children指定固定的子進程數。
#若是選擇dynamic,則進程數是動態變化的,由如下參數決定:
pm.max_children = 50 #子進程最大數
pm.start_servers = 2 #啓動時的進程數,默認值爲: min_spare_servers + (max_spare_servers - min_spare_servers) / 2
pm.min_spare_servers = 1 #保證空閒進程數最小值,若是空閒進程小於此值,則建立新的子進程
pm.max_spare_servers = 3 #,保證空閒進程數最大值,若是空閒進程大於此值,此進行清理
pm.max_requests = 10000
#設置每一個子進程重生以前服務的請求數. 對於可能存在內存泄漏的第三方模塊來講是很是有用的. 若是設置爲 '0' 則一直接受請求. 等同於 PHP_FCGI_MAX_REQUESTS 環境變量. 默認值: 0.
pm.status_path = /status
#FPM狀態頁面的網址. 若是沒有設置, 則沒法訪問狀態頁面. 默認值: none. munin監控會使用到
ping.path = /ping
#FPM監控頁面的ping網址. 若是沒有設置, 則沒法訪問ping頁面. 該頁面用於外部檢測FPM是否存活而且能夠響應請求. 請注意必須以斜線開頭 (/)。
ping.response = pong
#用於定義ping請求的返回相應. 返回爲 HTTP 200 的 text/plain 格式文本. 默認值: pong.
access.log = log/$pool.access.log
#每個請求的訪問日誌,默認是關閉的。
access.format = "%R - %u %t \"%m %r%Q%q\" %s %f %{mili}d %{kilo}M %C%%"
#設定訪問日誌的格式。
slowlog = log/$pool.log.slow
#慢請求的記錄日誌,配合request_slowlog_timeout使用,默認關閉
request_slowlog_timeout = 10s
#當一個請求該設置的超時時間後,就會將對應的PHP調用堆棧信息完整寫入到慢日誌中. 設置爲 '0' 表示 'Off'
request_terminate_timeout = 0
#設置單個請求的超時停止時間. 該選項可能會對php.ini設置中的'max_execution_time'由於某些特殊緣由沒有停止運行的腳本有用. 設置爲 '0' 表示 'Off'.當常常出現502錯誤時能夠嘗試更改此選項。
rlimit_files = 1024
#設置文件打開描述符的rlimit限制. 默認值: 系統定義值默承認打開句柄是1024,可以使用 ulimit -n查看,ulimit -n 2048修改。
rlimit_core = 0
#設置核心rlimit最大限制值. 可用值: 'unlimited' 、0或者正整數. 默認值: 系統定義值.
chroot =
#啓動時的Chroot目錄. 所定義的目錄須要是絕對路徑. 若是沒有設置, 則chroot不被使用.
chdir =
#設置啓動目錄,啓動時會自動Chdir到該目錄. 所定義的目錄須要是絕對路徑. 默認值: 當前目錄,或者/目錄(chroot時)
catch_workers_output = yes
#重定向運行過程當中的stdout和stderr到主要的錯誤日誌文件中. 若是沒有設置, stdout 和 stderr 將會根據FastCGI的規則被重定向到 /dev/null . 默認值: 空.
複製代碼

摘自 www.zybuluo.com/phper/note/…

單獨拿出幾個重要配置項:

pm = static
#php-fpm進程啓動模式,pm能夠設置爲static和dynamic和ondemand
#若是選擇static,則進程數就數固定的,由pm.max_children指定固定的子進程數。

pm.max_children = 500 #子進程最大數

request_terminate_timeout=30
#設置單個請求的超時停止時間. 該選項可能會對php.ini設置中的'max_execution_time'由於某些特殊緣由沒有停止運行的腳本有用. 設置爲 '0' 表示 'Off'.當常常出現502錯誤時能夠嘗試更改此選項。

request_slowlog_timeout=3
#當一個請求該設置的超時時間後,就會將對應的PHP調用堆棧信息完整寫入到慢日誌中. 設置爲 '0' 表示 'Off'

pm.max_requests=10000
#設置每一個子進程重生以前服務的請求數. 對於可能存在內存泄漏的第三方模塊來講是很是有用的. 若是設置爲 '0' 則一直接受請求. 等同於 PHP_FCGI_MAX_REQUESTS 環境變量. 默認值: 0.
複製代碼

開始學習

以上即是咱們線上的主要配置,主要仍是集中在了 request_terminate_timeout 這個參數上。它和php.ini的 max_execution_time 有什麼區別

set_time_limit()函數和配置指令max_execution_time隻影響腳本自己執行的時間。任何發生在諸如使用system()的系統調用,流操做,數據庫操做等的腳本執行的最大時間不包括其中,而 request_terminate_timeout 是包含全部時間的

php.ini配置時間一樣也爲30,可是相比而言,request_terminate_timeout時間會更短。

迴歸正題

但前文咱們明明說了,這個接口並非很複雜啊。..應該不會超時啊,當時第三方服務也沒有什麼異常狀況,fpm錯誤日誌也並無這個超時錯誤信息。各個依賴的系統負載都還處於比較低峯期狀態

在疑問中結束了今天的工做,回來打算寫一下分享今天的調試經歷,在搜索文檔的時候又發現了這麼一句話:

複製別人文章

Nginx 502 Bad Gateway錯誤

在php.ini和php-fpm.conf中分別有這樣兩個配置項:max_execution_time和request_terminate_timeout。

這兩項都是用來配置一個PHP腳本的最大執行時間的。當超過這個時間時,PHP-FPM不僅會終止腳本的執行,

還會終止執行腳本的Worker進程。因此Nginx會發現與本身通訊的鏈接斷掉了,就會返回給客戶端502錯誤。

以PHP-FPM的request_terminate_timeout=30秒時爲例,報502 Bad Gateway錯誤的具體信息以下:

1)Nginx錯誤訪問日誌:

2013/09/19 01:09:00 [error] 27600#0: *78887 recv() failed (104: Connection reset by peer) while reading response header from upstream, client: 192.168.1.101, server: test.com, request: "POST /index.php HTTP/1.1", upstream: "fastcgi://unix:/dev/shm/php-fcgi.sock:", host: "test.com", referrer: "test.com/index.php"

2)PHP-FPM報錯日誌:

WARNING:  child 25708 exited on signal 15 (SIGTERM) after 21008.883410 seconds from start
複製代碼

因此只需將這兩項的值調大一些就可讓PHP腳本不會由於執行時間長而被終止了。

request_terminate_timeout能夠覆蓋max_execution_time,因此若是不想改全局的php.ini,那隻改PHP-FPM的配置就能夠了。

此外要注意的是Nginx的upstream模塊中的max_fail和fail_timeout兩項。有時Nginx與上游服務器(如Tomcat、FastCGI)的通訊只是偶然斷掉了,但max_fail若是設置的比較小的話,那麼在接下來的fail_timeout時間內,Nginx都會認爲上游服務器掛掉了,都會返回502錯誤。因此能夠將max_fail調大一些,將fail_timeout調小一些。

摘自最棒的51cto: blog.51cto.com/nanchunle/1…

自圓其說

對於nginx的upstream模塊並非很瞭解,回憶當時報錯場景,確實發現日誌裏面先後報了幾個不一樣接口一樣的錯誤,也多是其餘接口影響了此接口,只是它正好被報警系統抓取到。

反思

思考問題可能過於片面,沒有解決問題的一套體系、思路,容易繞彎路、甚至南轅北轍。

結論

這是一篇沒有結論的文章.

後續會嘗試復現此場景,但願你們持續關注。

歡迎關注 < 呆呆熊一點通 >

相關文章
相關標籤/搜索