Nginx 入門指南

Nginx 模塊通常被分紅三大類：handler、filter 和 upstream。前面的章節中，讀者已經瞭解了 handler、filter。利用這兩類模塊，能夠使 Nginx 輕鬆完成任何單機工做。而本章介紹的 upstream 模塊，將使 Nginx 跨越單機的限制，完成網絡數據的接收、處理和轉發。

數據轉發功能，爲 Nginx 提供了跨越單機的橫向處理能力，使 Nginx 擺脫只能爲終端節點提供單一功能的限制，而使它具有了網路應用級別的拆分、封裝和整合的戰略功能。在雲模型大行其道的今天，數據轉發是 Nginx 有能力構建一個網絡應用的關鍵組件。固然，鑑於開發成本的問題，一個網絡應用的關鍵組件一開始每每會採用高級編程語言開發。可是當系統到達必定規模，而且須要更重視性能的時候，爲了達到所要求的性能目標，高級語言開發出的組件必須進行結構化修改。此時，對於修改代價而言，Nginx 的 upstream 模塊呈現出極大的吸引力，由於它天生就快。做爲附帶，Nginx 的配置系統提供的層次化和鬆耦合使得系統的擴展性也達到比較高的程度。

upstream 模塊接口

從本質上說，upstream 屬於 handler，只是他不產生本身的內容，而是經過請求後端服務器獲得內容，因此才稱爲 upstream（上游）。請求並取得響應內容的整個過程已經被封裝到 Nginx 內部，因此 upstream 模塊只須要開發若干回調函數，完成構造請求和解析響應等具體的工做。

memcached 模塊分析

memcache 是一款高性能的分佈式 cache 系統，獲得了很是普遍的應用。memcache 定義了一套私有通訊協議，使得不能經過 HTTP 請求來訪問 memcache。但協議自己簡單高效，並且 memcache 使用普遍，因此大部分現代開發語言和平臺都提供了 memcache 支持，方便開發者使用 memcache。

Nginx 提供了 ngx_http_memcached 模塊，提供從 memcache 讀取數據的功能，而不提供向 memcache 寫數據的功能。做爲 Web 服務器，這種設計是能夠接受的。

下面，咱們開始分析 ngx_http_memcached 模塊，一窺 upstream 的奧祕。

Handler 模塊？

初看 memcached 模塊，你們可能以爲並沒有特別之處。若是稍微細看，甚至以爲有點像 handler 模塊，當你們看到這段代碼之後，一定疑惑爲何會跟 handler 模塊如出一轍。

由於 upstream 模塊使用的就是 handler 模塊的接入方式。同時，upstream 模塊的指令系統的設計也是遵循 handler 模塊的基本規則：配置該模塊纔會執行該模塊。

因此你們以爲眼熟是好事，說明你們對 Handler 的寫法已經很熟悉了。

Upstream 模塊

那麼，upstream 模塊的特別之處究竟在哪裏呢？答案是就在模塊處理函數的實現中。upstream 模塊的處理函數進行的操做都包含一個固定的流程。在 memcached 的例子中，能夠觀察 ngx_http_memcached_handler 的代碼，能夠發現，這個固定的操做流程是：

任何 upstream 模塊，簡單如 memcached，複雜如 proxy、fastcgi 都是如此。不一樣的 upstream 模塊在這 6 步中的最大差異會出如今第二、三、四、5 上。其中第二、4 兩步很容易理解，不一樣的模塊設置的標誌和使用的回調函數確定不一樣。第 5 步也不難理解，只有第3步是最爲晦澀的，不一樣的模塊在取得後端服務器列表時，策略的差別很是大，有如 memcached 這樣簡單明瞭的，也有如 proxy 那樣邏輯複雜的。這個問題先記下來，等把memcached剖析清楚了，再單獨討論。

第 6 步是一個常態。將 count 加 1，而後返回 NGX_DONE。Nginx 遇到這種狀況，雖然會認爲當前請求的處理已經結束，可是不會釋放請求使用的內存資源，也不會關閉與客戶端的鏈接。之因此須要這樣，是由於 Nginx 創建了 upstream 請求和客戶端請求之間一對一的關係，在後續使用 ngx_event_pipe 將 upstream 響應發送回客戶端時，還要使用到這些保存着客戶端信息的數據結構。這部分會在後面的原理篇作具體介紹，這裏再也不展開。

將 upstream 請求和客戶端請求進行一對一綁定，這個設計有優點也有缺陷。優點就是簡化模塊開發，能夠將精力集中在模塊邏輯上，而缺陷一樣明顯，一對一的設計不少時候都不能知足複雜邏輯的須要。對於這一點，將會在後面的原理篇來闡述。

回調函數

前面剖析了 memcached 模塊的骨架，如今開始逐個解決每一個回調函數。

若是在已讀入緩衝的數據中沒有發現 LF('\n')字符，函數返回 NGX_AGAIN，表示頭部未徹底讀入，須要繼續讀取數據。Nginx 在收到新的數據之後會再次調用該函數。

Nginx 處理後端服務器的響應頭時只會使用一塊緩存，全部數據都在這塊緩存中，因此解析頭部信息時不須要考慮頭部信息跨越多塊緩存的狀況。而若是頭部過大，不能保存在這塊緩存中，Nginx 會返回錯誤信息給客戶端，並記錄 error log，提示緩存不夠大。

process_header 的重要職責是將後端服務器返回的狀態翻譯成返回給客戶端的狀態。例如，在 ngx_http_memcached_process_header 中，有這樣幾段代碼：

u->state 用於計算 upstream 相關的變量。好比 u->state->status 將被用於計算變量「upstream_status」的值。u->headers_in 將被做爲返回給客戶端的響應返回狀態碼。而第一行則是設置返回給客戶端的響應的長度。

在這個函數中不能忘記的一件事情是處理完頭部信息之後須要將讀指針 pos 後移，不然這段數據也將被複制到返回給客戶端的響應的正文中，進而致使正文內容不正確。

process_header 函數完成響應頭的正確處理，應該返回 NGX_OK。若是返回 NGX_AGAIN，表示未讀取完整數據，須要從後端服務器繼續讀取數據。返回 NGX_DECLINED 無心義，其餘任何返回值都被認爲是出錯狀態，Nginx 將結束 upstream 請求並返回錯誤信息。

本節回顧

這一節介紹了 upstream 模塊的基本組成。upstream 模塊是從 handler 模塊發展而來，指令系統和模塊生效方式與 handler 模塊無異。不一樣之處在於，upstream 模塊在 handler 函數中設置衆多回調函數。實際工做都是由這些回調函數完成的。每一個回調函數都是在 upstream 的某個固定階段執行，各司其職，大部分回調函數通常不會真正用到。upstream 最重要的回調函數是 create_request、process_header 和 input_filter，他們共同實現了與後端服務器的協議的解析部分。

filter module	description
ngx_http_not_modified_filter_module	默認打開，若是請求的 if-modified-since 等於回覆的 last-modified 間值，說明回覆沒有變化，清空全部回覆的內容，返回 304。
ngx_http_range_body_filter_module	默認打開，只是響應體過濾函數，支持 range 功能，若是請求包含range請求，那就只發送range請求的一段內容。
ngx_http_copy_filter_module	始終打開，只是響應體過濾函數，主要工做是把文件中內容讀到內存中，以便進行處理。
ngx_http_headers_filter_module	始終打開，能夠設置 expire 和 Cache-control 頭，能夠添加任意名稱的頭
ngx_http_userid_filter_module	默認關閉，能夠添加統計用的識別用戶的 cookie。
ngx_http_charset_filter_module	默認關閉，能夠添加 charset，也能夠將內容從一種字符集轉換到另一種字符集，不支持多字節字符集。
ngx_http_ssi_filter_module	默認關閉，過濾 SSI 請求，能夠發起子請求，去獲取include進來的文件
ngx_http_postpone_filter_module	始終打開，用來將子請求和主請求的輸出鏈合併
ngx_http_gzip_filter_module	默認關閉，支持流式的壓縮內容
ngx_http_range_header_filter_module	默認打開，只是響應頭過濾函數，用來解析range頭，併產生range響應的頭。
ngx_http_chunked_filter_module	默認打開，對於 HTTP/1.1 和缺乏 content-length 的回覆自動打開。
ngx_http_header_filter_module	始終打開，用來將全部 header 組成一個完整的 HTTP 頭。
ngx_http_write_filter_module	始終打開，將輸出鏈拷貝到 r->out中，而後輸出內容。

功能	函數名
chain 分配	ngx_alloc_chain_link
chain 釋放	ngx_free_chain
buf 分配	ngx_chain_get_free_buf
buf 釋放	ngx_chain_update_chains

SN	描述
create_request	生成發送到後端服務器的請求緩衝（緩衝鏈），在初始化 upstream 時使用。
reinit_request	在某臺後端服務器出錯的狀況，Nginx會嘗試另外一臺後端服務器。Nginx 選定新的服務器之後，會先調用此函數，以從新初始化 upstream 模塊的工做狀態，而後再次進行 upstream 鏈接。
process_header	處理後端服務器返回的信息頭部。所謂頭部是與 upstreamserver 通訊的協議規定的，好比 HTTP 協議的 header 部分，或者 memcached 協議的響應狀態部分。
abort_request	在客戶端放棄請求時被調用。不須要在函數中實現關閉後端服務器鏈接的功能，系統會自動完成關閉鏈接的步驟，因此通常此函數不會進行任何具體工做。
finalize_request	正常完成與後端服務器的請求後調用該函數，與 abort_request 相同，通常也不會進行任何具體工做。
input_filter	處理後端服務器返回的響應正文。Nginx 默認的 input_filter 會將收到的內容封裝成爲緩衝區鏈 ngx_chain。該鏈由 upstream 的 out_bufs 指針域定位，因此開發人員能夠在模塊之外經過該指針獲得後端服務器返回的正文數據。memcached 模塊實現了本身的 input_filter，在後面會具體分析這個模塊。
input_filter_init	初始化 input filter 的上下文。Nginx 默認的 input_filter_init 直接返回。

十九.負載均衡模塊

負載均衡模塊用於從upstream指令定義的後端主機列表中選取一臺主機。Nginx 先使用負載均衡模塊找到一臺主機，再使用 upstream 模塊實現與這臺主機的交互。爲了方便介紹負載均衡模塊，作到言之有物，如下選取 Nginx 內置的 ip hash 模塊做爲實際例子進行分析。

配置

要了解負載均衡模塊的開發方法，首先須要瞭解負載均衡模塊的使用方法。由於負載均衡模塊與以前書中提到的模塊差異比較大，因此咱們從配置入手比較容易理解。

在配置文件中，咱們若是須要使用 ip hash 的負載均衡算法。咱們須要寫一個相似下面的配置：

upstream test {
            ip_hash;

            server 192.168.0.1;
            server 192.168.0.2;
        }

從配置咱們能夠看出負載均衡模塊的使用場景：

核心指令ip_hash只能在 upstream {}中使用。這條指令用於通知 Nginx 使用 ip hash 負載均衡算法。若是沒加這條指令，Nginx 會使用默認的 round robin 負載均衡模塊。請各位讀者對比 handler 模塊的配置，是否是有共同點？
upstream {}中的指令可能出如今server指令前，可能出如今server指令後，也可能出如今兩條server指令之間。各位讀者可能會有疑問，有什麼差異麼？那麼請各位讀者嘗試下面這個配置：

upstream test {
            server 192.168.0.1 weight=5;
            ip_hash;
            server 192.168.0.2 weight=7;
        }

神奇的事情出現了：

nginx: [emerg] invalid parameter "weight=7" in nginx.conf:103
        configuration file nginx.conf test failed

可見 ip_hash 指令的確能影響到配置的解析。

指令

配置決定指令系統，如今就來看 ip_hash 的指令定義：

static ngx_command_t  ngx_http_upstream_ip_hash_commands[] = {

        { ngx_string("ip_hash"),
          NGX_HTTP_UPS_CONF|NGX_CONF_NOARGS,
          ngx_http_upstream_ip_hash,
          0,
          0,
          NULL },

        ngx_null_command
    };

沒有特別的東西，除了指令屬性是 NGX_HTTP_UPS_CONF。這個屬性表示該指令的適用範圍是 upstream{}。

鉤子

以從前面的章節獲得的經驗，你們應該知道這裏就是模塊的切入點了。負載均衡模塊的鉤子代碼都是有規律的，這裏經過 ip_hash 模塊來分析這個規律。

static char *
    ngx_http_upstream_ip_hash(ngx_conf_t *cf, ngx_command_t *cmd, void *conf)
    {
        ngx_http_upstream_srv_conf_t  *uscf;

        uscf = ngx_http_conf_get_module_srv_conf(cf, ngx_http_upstream_module);

        uscf->peer.init_upstream = ngx_http_upstream_init_ip_hash;

        uscf->flags = NGX_HTTP_UPSTREAM_CREATE
                    |NGX_HTTP_UPSTREAM_MAX_FAILS
                    |NGX_HTTP_UPSTREAM_FAIL_TIMEOUT
                    |NGX_HTTP_UPSTREAM_DOWN;

        return NGX_CONF_OK;
    }

這段代碼中有兩點值得咱們注意。一個是 uscf->flags 的設置，另外一個是設置 init_upstream 回調。

設置 uscf->flags

NGX_HTTP_UPSTREAM_CREATE：建立標誌，若是含有建立標誌的話，Nginx 會檢查重複建立，以及必要參數是否填寫；
NGX_HTTP_UPSTREAM_MAX_FAILS：能夠在 server 中使用 max_fails 屬性；
NGX_HTTP_UPSTREAM_FAIL_TIMEOUT：能夠在 server 中使用 fail_timeout 屬性；
NGX_HTTP_UPSTREAM_DOWN：能夠在 server 中使用 down 屬性；
NGX_HTTP_UPSTREAM_WEIGHT：能夠在 server 中使用 weight 屬性；
NGX_HTTP_UPSTREAM_BACKUP：能夠在 server 中使用 backup 屬性。

聰明的讀者若是聯想到剛剛遇到的那個神奇的配置錯誤，能夠得出一個結論：在負載均衡模塊的指令處理函數中能夠設置並修改 upstream{} 中server指令支持的屬性。這是一個很重要的性質，由於不一樣的負載均衡模塊對各類屬性的支持狀況都是不同的，那麼就須要在解析配置文件的時候檢測出是否使用了不支持的負載均衡屬性並給出錯誤提示，這對於提高系統維護性是頗有意義的。可是，這種機制也存在缺陷，正如前面的例子所示，沒有機制可以追加檢查在更新支持屬性以前已經配置了不支持屬性的server指令。

設置 init_upstream 回調

Nginx 初始化 upstream 時，會在 ngx_http_upstream_init_main_conf 函數中調用設置的回調函數初始化負載均衡模塊。這裏不太好理解的是 uscf 的具體位置。經過下面的示意圖，說明 upstream 負載均衡模塊的配置的內存佈局。

從圖上能夠看出，MAIN_CONF 中 ngx_upstream_module 模塊的配置項中有一個指針數組 upstreams，數組中的每一個元素對應就是配置文件中每個 upstream{}的信息。更具體的將會在後面的原理篇討論。

初始化配置

init_upstream 回調函數執行時須要初始化負載均衡模塊的配置，還要設置一個新鉤子，這個鉤子函數會在 Nginx 處理每一個請求時做爲初始化函數調用，關於這個新鉤子函數的功能，後面會有詳細的描述。這裏，咱們先分析 IP hash 模塊初始化配置的代碼：

ngx_http_upstream_init_round_robin(cf, us);
    us->peer.init = ngx_http_upstream_init_ip_hash_peer;

這段代碼很是簡單：IP hash 模塊首先調用另外一個負載均衡模塊 Round Robin 的初始化函數，而後再設置本身的處理請求階段初始化鉤子。實際上幾個負載均衡模塊能夠組成一條鏈表，每次都是從鏈首的模塊開始進行處理。若是模塊決定不處理，能夠將處理權交給鏈表中的下一個模塊。這裏，IP hash 模塊指定 Round Robin 模塊做爲本身的後繼負載均衡模塊，因此在本身的初始化配置函數中也對 Round Robin 模塊進行初始化。

初始化請求

Nginx 收到一個請求之後，若是發現須要訪問 upstream，就會執行對應的 peer.init 函數。這是在初始化配置時設置的回調函數。這個函數最重要的做用是構造一張表，當前請求能夠使用的 upstream 服務器被依次添加到這張表中。之因此須要這張表，最重要的緣由是若是 upstream 服務器出現異常，不能提供服務時，能夠從這張表中取得其餘服務器進行重試操做。此外，這張表也能夠用於負載均衡的計算。之因此構造這張表的行爲放在這裏而不是在前面初始化配置的階段，是由於upstream須要爲每個請求提供獨立隔離的環境。

爲了討論 peer.init 的核心，咱們仍是看 IP hash 模塊的實現：

r->upstream->peer.data = &iphp->rrp;

    ngx_http_upstream_init_round_robin_peer(r, us);

    r->upstream->peer.get = ngx_http_upstream_get_ip_hash_peer;

第一行是設置數據指針，這個指針就是指向前面提到的那張表；

第二行是調用 Round Robin 模塊的回調函數對該模塊進行請求初始化。面前已經提到，一個負載均衡模塊能夠調用其餘負載均衡模塊以提供功能的補充。

第三行是設置一個新的回調函數get。該函數負責從表中取出某個服務器。除了 get 回調函數，還有另外一個r->upstream->peer.free的回調函數。該函數在 upstream 請求完成後調用，負責作一些善後工做。好比咱們須要維護一個 upstream 服務器訪問計數器，那麼能夠在 get 函數中對其加 1，在 free 中對其減 1。若是是 SSL 的話，Nginx 還提供兩個回調函數 peer.set_session 和 peer.save_session。通常來講，有兩個切入點實現負載均衡算法，其一是在這裏，其二是在 get 回調函數中。

peer.get 和 peer.free 回調函數

這兩個函數是負載均衡模塊最底層的函數，負責實際獲取一個鏈接和回收一個鏈接的預備操做。之因此說是預備操做，是由於在這兩個函數中，並不實際進行創建鏈接或者釋放鏈接的動做，而只是執行獲取鏈接的地址或維護鏈接狀態的操做。須要理解的清楚一點，在 peer.get 函數中獲取鏈接的地址信息，並不表明這時鏈接必定沒有被創建，相反的，經過 get 函數的返回值，Nginx 能夠了解是否存在可用鏈接，鏈接是否已經創建。這些返回值總結以下：

返回值	說明	Nginx 後續動做
NGX_DONE	獲得了鏈接地址信息，而且鏈接已經創建。	直接使用鏈接，發送數據。
NGX_OK	獲得了鏈接地址信息，但鏈接並未創建。	創建鏈接，如鏈接不能當即創建，設置事件，
		暫停執行本請求，執行別的請求。
NGX_BUSY	全部鏈接均不可用。	返回502錯誤至客戶端。

各位讀者看到上面這張表，可能會有幾個問題浮現出來：

Q: 何時鏈接是已經創建的？

A: 使用後端 keepalive 鏈接的時候，鏈接在使用完之後並不關閉，而是存放在一個隊列中，新的請求只須要從隊列中取出鏈接，這些鏈接都是已經準備好的。

Q: 什麼叫全部鏈接均不可用？

A: 初始化請求的過程當中，創建了一張表，get 函數負責每次從這張表中不重複的取出一個鏈接，當沒法從表中取得一個新的鏈接時，即全部鏈接均不可用。

Q: 對於一個請求，peer.get 函數可能被調用屢次麼？

A: 正式如此。當某次 peer.get 函數獲得的鏈接地址鏈接不上，或者請求對應的服務器獲得異常響應，Nginx 會執行 ngx_http_upstream_next，而後可能再次調用 peer.get 函數嘗試別的鏈接。upstream 總體流程以下：

本節回顧

這一節介紹了負載均衡模塊的基本組成。負載均衡模塊的配置區集中在 upstream{}塊中。負載均衡模塊的回調函數體系是以 init_upstream 爲起點，經歷 init_peer，最終到達 peer.get 和 peer.free。其中 init_peer 負責創建每一個請求使用的 server 列表，peer.get 負責從 server 列表中選擇某個 server（通常是不重複選擇），而 peer.free 負責 server 釋放前的資源釋放工做。最後，這一節經過一張圖將 upstream 模塊和負載均衡模塊在請求處理過程當中的相互關係展示出來。

Nginx 入門指南

二.Nginx 特色

3.初探 Nginx 架構

四.Nginx 基礎概念

connection

request

keepalive

pipe

lingering_close

五.基本數據結構

ngx_str_t

ngx_pool_t

ngx_array_t

ngx_hash_t

ngx_hash_wildcard_t

ngx_hash_combined_t

ngx_hash_keys_arrays_t

ngx_chain_t

ngx_buf_t

ngx_list_t

ngx_queue_t

六.Nginx 的配置系統

指令概述

指令參數

指令上下文

七.Nginx 的模塊化體系結構

模塊概述

模塊的分類

八.Nginx 的請求處理

請求的處理流程

九.handler 模塊簡介

十.模塊的基本結構

模塊配置結構

模塊配置指令

模塊上下文結構

模塊的定義

十一.handler 模塊的基本結構

十二.handler 模塊的掛載

按處理階段掛載

按需掛載

十三.handler 的編寫步驟

十四.示例: hello handler 模塊

十五.handler 模塊的編譯和使用

config 文件的編寫

編譯

使用

十六.更多 handler 模塊示例分析

http access module

http static module

http log module

十七.過濾模塊簡介

執行時間和內容

執行順序

模塊編譯

十八.過濾模塊的分析

相關結構體

響應頭過濾函數

響應體過濾函數

主要功能介紹

發出子請求

一些優化措施

過濾內容的緩存

十八.upstream 模塊簡介

upstream 模塊接口

memcached 模塊分析

Handler 模塊？

Upstream 模塊

回調函數

本節回顧

十九.負載均衡模塊

配置

指令

鉤子

設置 uscf->flags

設置 init_upstream 回調

初始化配置

初始化請求

peer.get 和 peer.free 回調函數

本節回顧

二十.core 模塊