忙完了今天的工做, 終於到了週五,能夠好好休息下了。php
就在安心養神的時候, 同事轉給了我一條nginx 502的報警, 趕忙去線上一頓排查。nginx
首先得先找出哪臺機器報出的(同時喊運維看下線上負載狀況), 發現01機器的nginx日誌在報警時間點的錯誤信息:數據庫
*272881176 recv() failed (104: Connection reset by peer) while reading response header from upstream, client: xx.xx.xx.xx, server: , request: "POST /xxx/xxx HTTP/1.1", upstream: "fastcgi://127.0.0.1:9000", host: "xx.xx.xx.xx:8081"centos
recv()爲接收返回數據的系統函數,基本能夠先認爲報錯緣由爲bash
Nginx發現某服務與本身通訊的鏈接斷掉了,就會返回給客戶端502錯誤。服務器
那麼nginx是從哪裏接收數據呢,報錯信息一樣很明顯,fastcgi://127.0.0.1:9000markdown
一樣思考爲何php的處理進程會中斷呢?運維
一樣針對這兩種狀況,排查結果:socket
順便也看了下 fpm的錯誤日誌、慢日誌,也沒有什麼收穫(此處極可能會忽略掉了重要信息)tcp
因而既然認爲是fpm出了問題,就調研下fpm的配置文件吧
pid = /usr/local/var/run/php-fpm.pid #pid設置,必定要開啓,上面是Mac平臺的。默認在php安裝目錄中的var/run/php-fpm.pid。好比centos的在: /usr/local/php/var/run/php-fpm.pid error_log = /usr/local/var/log/php-fpm.log #錯誤日誌,上面是Mac平臺的,默認在php安裝目錄中的var/log/php-fpm.log,好比centos的在: /usr/local/php/var/log/php-fpm.log log_level = notice #錯誤級別. 上面的php-fpm.log紀錄的登記。可用級別爲: alert(必須當即處理), error(錯誤狀況), warning(警告狀況), notice(通常重要信息), debug(調試信息). 默認: notice. emergency_restart_threshold = 60 emergency_restart_interval = 60s #表示在emergency_restart_interval所設值內出現SIGSEGV或者SIGBUS錯誤的php-cgi進程數若是超過 emergency_restart_threshold個,php-fpm就會優雅重啓。這兩個選項通常保持默認值。0 表示 '關閉該功能'. 默認值: 0 (關閉). process_control_timeout = 0 #設置子進程接受主進程複用信號的超時時間. 可用單位: s(秒), m(分), h(小時), 或者 d(天) 默認單位: s(秒). 默認值: 0. daemonize = yes #後臺執行fpm,默認值爲yes,若是爲了調試能夠改成no。在FPM中,可使用不一樣的設置來運行多個進程池。 這些設置能夠針對每一個進程池單獨設置。 listen = 127.0.0.1:9000 #fpm監聽端口,即nginx中php處理的地址,通常默認值便可。可用格式爲: 'ip:port', 'port', '/path/to/unix/socket'. 每一個進程池都須要設置。若是nginx和php在不一樣的機器上,分佈式處理,就設置ip這裏就能夠了。 listen.backlog = -1 #backlog數,設置 listen 的半鏈接隊列長度,-1表示無限制,由操做系統決定,此行註釋掉就行。backlog含義參考:http://www.3gyou.cc/?p=41 listen.allowed_clients = 127.0.0.1 #容許訪問FastCGI進程的IP白名單,設置any爲不限制IP,若是要設置其餘主機的nginx也能訪問這臺FPM進程,listen處要設置成本地可被訪問的IP。默認值是any。每一個地址是用逗號分隔. 若是沒有設置或者爲空,則容許任何服務器請求鏈接。 listen.owner = www listen.group = www listen.mode = 0666 #unix socket設置選項,若是使用tcp方式訪問,這裏註釋便可。 user = www group = www #啓動進程的用戶和用戶組,FPM 進程運行的Unix用戶, 必需要設置。用戶組,若是沒有設置,則默認用戶的組被使用。 pm = dynamic #php-fpm進程啓動模式,pm能夠設置爲static和dynamic和ondemand #若是選擇static,則進程數就數固定的,由pm.max_children指定固定的子進程數。 #若是選擇dynamic,則進程數是動態變化的,由如下參數決定: pm.max_children = 50 #子進程最大數 pm.start_servers = 2 #啓動時的進程數,默認值爲: min_spare_servers + (max_spare_servers - min_spare_servers) / 2 pm.min_spare_servers = 1 #保證空閒進程數最小值,若是空閒進程小於此值,則建立新的子進程 pm.max_spare_servers = 3 #,保證空閒進程數最大值,若是空閒進程大於此值,此進行清理 pm.max_requests = 10000 #設置每一個子進程重生以前服務的請求數. 對於可能存在內存泄漏的第三方模塊來講是很是有用的. 若是設置爲 '0' 則一直接受請求. 等同於 PHP_FCGI_MAX_REQUESTS 環境變量. 默認值: 0. pm.status_path = /status #FPM狀態頁面的網址. 若是沒有設置, 則沒法訪問狀態頁面. 默認值: none. munin監控會使用到 ping.path = /ping #FPM監控頁面的ping網址. 若是沒有設置, 則沒法訪問ping頁面. 該頁面用於外部檢測FPM是否存活而且能夠響應請求. 請注意必須以斜線開頭 (/)。 ping.response = pong #用於定義ping請求的返回相應. 返回爲 HTTP 200 的 text/plain 格式文本. 默認值: pong. access.log = log/$pool.access.log #每個請求的訪問日誌,默認是關閉的。 access.format = "%R - %u %t \"%m %r%Q%q\" %s %f %{mili}d %{kilo}M %C%%" #設定訪問日誌的格式。 slowlog = log/$pool.log.slow #慢請求的記錄日誌,配合request_slowlog_timeout使用,默認關閉 request_slowlog_timeout = 10s #當一個請求該設置的超時時間後,就會將對應的PHP調用堆棧信息完整寫入到慢日誌中. 設置爲 '0' 表示 'Off' request_terminate_timeout = 0 #設置單個請求的超時停止時間. 該選項可能會對php.ini設置中的'max_execution_time'由於某些特殊緣由沒有停止運行的腳本有用. 設置爲 '0' 表示 'Off'.當常常出現502錯誤時能夠嘗試更改此選項。 rlimit_files = 1024 #設置文件打開描述符的rlimit限制. 默認值: 系統定義值默承認打開句柄是1024,可以使用 ulimit -n查看,ulimit -n 2048修改。 rlimit_core = 0 #設置核心rlimit最大限制值. 可用值: 'unlimited' 、0或者正整數. 默認值: 系統定義值. chroot = #啓動時的Chroot目錄. 所定義的目錄須要是絕對路徑. 若是沒有設置, 則chroot不被使用. chdir = #設置啓動目錄,啓動時會自動Chdir到該目錄. 所定義的目錄須要是絕對路徑. 默認值: 當前目錄,或者/目錄(chroot時) catch_workers_output = yes #重定向運行過程當中的stdout和stderr到主要的錯誤日誌文件中. 若是沒有設置, stdout 和 stderr 將會根據FastCGI的規則被重定向到 /dev/null . 默認值: 空. 複製代碼
單獨拿出幾個重要配置項:
pm = static #php-fpm進程啓動模式,pm能夠設置爲static和dynamic和ondemand #若是選擇static,則進程數就數固定的,由pm.max_children指定固定的子進程數。 pm.max_children = 500 #子進程最大數 request_terminate_timeout=30 #設置單個請求的超時停止時間. 該選項可能會對php.ini設置中的'max_execution_time'由於某些特殊緣由沒有停止運行的腳本有用. 設置爲 '0' 表示 'Off'.當常常出現502錯誤時能夠嘗試更改此選項。 request_slowlog_timeout=3 #當一個請求該設置的超時時間後,就會將對應的PHP調用堆棧信息完整寫入到慢日誌中. 設置爲 '0' 表示 'Off' pm.max_requests=10000 #設置每一個子進程重生以前服務的請求數. 對於可能存在內存泄漏的第三方模塊來講是很是有用的. 若是設置爲 '0' 則一直接受請求. 等同於 PHP_FCGI_MAX_REQUESTS 環境變量. 默認值: 0. 複製代碼
以上即是咱們線上的主要配置,主要仍是集中在了 request_terminate_timeout 這個參數上。它和php.ini的 max_execution_time 有什麼區別
set_time_limit()函數和配置指令max_execution_time隻影響腳本自己執行的時間。任何發生在諸如使用system()的系統調用,流操做,數據庫操做等的腳本執行的最大時間不包括其中,而 request_terminate_timeout 是包含全部時間的
php.ini配置時間一樣也爲30,可是相比而言,request_terminate_timeout時間會更短。
但前文咱們明明說了,這個接口並非很複雜啊。..應該不會超時啊,當時第三方服務也沒有什麼異常狀況,fpm錯誤日誌也並無這個超時錯誤信息。各個依賴的系統負載都還處於比較低峯期狀態
在疑問中結束了今天的工做,回來打算寫一下分享今天的調試經歷,在搜索文檔的時候又發現了這麼一句話:
在php.ini和php-fpm.conf中分別有這樣兩個配置項:max_execution_time和request_terminate_timeout。
這兩項都是用來配置一個PHP腳本的最大執行時間的。當超過這個時間時,PHP-FPM不僅會終止腳本的執行,
還會終止執行腳本的Worker進程。因此Nginx會發現與本身通訊的鏈接斷掉了,就會返回給客戶端502錯誤。
以PHP-FPM的request_terminate_timeout=30秒時爲例,報502 Bad Gateway錯誤的具體信息以下:
1)Nginx錯誤訪問日誌:
2013/09/19 01:09:00 [error] 27600#0: *78887 recv() failed (104: Connection reset by peer) while reading response header from upstream, client: 192.168.1.101, server: test.com, request: "POST /index.php HTTP/1.1", upstream: "fastcgi://unix:/dev/shm/php-fcgi.sock:", host: "test.com", referrer: "test.com/index.php"
2)PHP-FPM報錯日誌:
WARNING: child 25708 exited on signal 15 (SIGTERM) after 21008.883410 seconds from start
複製代碼
因此只需將這兩項的值調大一些就可讓PHP腳本不會由於執行時間長而被終止了。
request_terminate_timeout能夠覆蓋max_execution_time,因此若是不想改全局的php.ini,那隻改PHP-FPM的配置就能夠了。
此外要注意的是Nginx的upstream模塊中的max_fail和fail_timeout兩項。有時Nginx與上游服務器(如Tomcat、FastCGI)的通訊只是偶然斷掉了,但max_fail若是設置的比較小的話,那麼在接下來的fail_timeout時間內,Nginx都會認爲上游服務器掛掉了,都會返回502錯誤。因此能夠將max_fail調大一些,將fail_timeout調小一些。
摘自最棒的51cto: blog.51cto.com/nanchunle/1…
對於nginx的upstream模塊並非很瞭解,回憶當時報錯場景,確實發現日誌裏面先後報了幾個不一樣接口一樣的錯誤,也多是其餘接口影響了此接口,只是它正好被報警系統抓取到。
思考問題可能過於片面,沒有解決問題的一套體系、思路,容易繞彎路、甚至南轅北轍。
這是一篇沒有結論的文章.
後續會嘗試復現此場景,但願你們持續關注。
歡迎關注 < 呆呆熊一點通 >