併發

一、修改用戶進程可打開文件數限制

在Linux平臺上,不管編寫客戶端程序仍是服務端程序,在進行高併發TCP鏈接處理時,最高的併發數量都要受到系統對用戶單一進程同時可打開文件數量的 限制(這是由於系統爲每一個TCP鏈接都要建立一個socket句柄,每一個socket句柄同時也是一個文件句柄)。可以使用ulimit命令查看系統容許當 前用戶進程打開的文件數限制:
[speng@as4 ~]$ ulimit -n
1024
這表示當前用戶的每一個進程最多容許同時打開1024個文件,這1024個文件中還得除去每一個進程必然打開的標準輸入,標準輸出,標準錯誤,服務器監聽 socket,進程間通信的unix域socket等文件,那麼剩下的可用於客戶端socket鏈接的文件數就只有大概1024-10=1014個左右。 也就是說缺省狀況下,基於Linux的通信程序最多容許同時1014個TCP併發鏈接。

對於想支持更高數量的TCP併發鏈接的通信處理程序,就必須修改Linux對當前用戶的進程同時打開的文件數量的軟限制(soft limit)和硬限制(hardlimit)。其中軟限制是指Linux在當前系統可以承受的範圍內進一步限制用戶同時打開的文件數;硬限制則是根據系統 硬件資源情況(主要是系統內存)計算出來的系統最多可同時打開的文件數量。一般軟限制小於或等於硬限制。

修改上述限制的最簡單的辦法就是使用ulimit命令:
[speng@as4 ~]$ ulimit -n <file_num>
上述命令中,在<file_num>中指定要設置的單一進程容許打開的最大文件數。若是系統回顯相似於「Operation notpermitted」之類的話,說明上述限制修改失敗,其實是由於在<file_num>中指定的數值超過了Linux系統對該用戶 打開文件數的軟限制或硬限制。所以,就須要修改Linux系統對用戶的關於打開文件數的軟限制和硬限制。

第一步,修改/etc/security/limits.conf文件,在文件中添加以下行:
speng soft nofile 10240
speng hard nofile 10240
其中speng指定了要修改哪一個用戶的打開文件數限制,可用'*'號表示修改全部用戶的限制;soft或hard指定要修改軟限制仍是硬限制;10240 則指定了想要修改的新的限制值,即最大打開文件數(請注意軟限制值要小於或等於硬限制)。修改完後保存文件。

第二步,修改/etc/pam.d/login文件,在文件中添加以下行:
session required /lib/security/pam_limits.so
這是告訴Linux在用戶完成系統登陸後,應該調用pam_limits.so模塊來設置系統對該用戶可以使用的各類資源數量的最大限制(包括用戶可打開的 最大文件數限制),而pam_limits.so模塊就會從/etc/security/limits.conf文件中讀取配置來設置這些限制值。修改完 後保存此文件。

第三步,查看Linux系統級的最大打開文件數限制,使用以下命令:
[speng@as4 ~]$ cat /proc/sys/fs/file-max
12158
這代表這臺Linux系統最多容許同時打開(即包含全部用戶打開文件數總和)12158個文件,是Linux系統級硬限制,全部用戶級的打開文件數限制都 不該超過這個數值。一般這個系統級硬限制是Linux系統在啓動時根據系統硬件資源情況計算出來的最佳的最大同時打開文件數限制,若是沒有特殊須要,不該 該修改此限制,除非想爲用戶級打開文件數限制設置超過此限制的值。修改此硬限制的方法是修改/etc/rc.local腳本,在腳本中添加以下行:
echo 22158 > /proc/sys/fs/file-max
這是讓Linux在啓動完成後強行將系統級打開文件數硬限制設置爲22158。修改完後保存此文件。

完成上述步驟後重啓系統,通常狀況下就能夠將Linux系統對指定用戶的單一進程容許同時打開的最大文件數限制設爲指定的數值。若是重啓後用 ulimit-n命令查看用戶可打開文件數限制仍然低於上述步驟中設置的最大值,這多是由於在用戶登陸腳本/etc/profile中使用ulimit -n命令已經將用戶可同時打開的文件數作了限制。因爲經過ulimit-n修改系統對用戶可同時打開文件的最大數限制時,新修改的值只能小於或等於上次 ulimit-n設置的值,所以想用此命令增大這個限制值是不可能的。因此,若是有上述問題存在,就只能去打開/etc/profile腳本文件,在文件 中查找是否使用了ulimit-n限制了用戶可同時打開的最大文件數量,若是找到,則刪除這行命令,或者將其設置的值改成合適的值,而後保存文件,用戶退 出並從新登陸系統便可。
經過上述步驟,就爲支持高併發TCP鏈接處理的通信處理程序解除關於打開文件數量方面的系統限制。

二、 修改網絡內核對TCP鏈接的有關限制

在Linux上編寫支持高併發TCP鏈接的客戶端通信處理程序時,有時會發現儘管已經解除了系統對用戶同時打開文件數的限制,但仍會出現併發TCP鏈接數 增長到必定數量時,再也沒法成功創建新的TCP鏈接的現象。出現這種如今的緣由有多種。

第一種緣由多是由於Linux網絡內核對本地端口號範圍有限制。此時,進一步分析爲何沒法創建TCP鏈接,會發現問題出在connect()調用返回 失敗,查看系統錯誤提示消息是「Can't assign requestedaddress」。同時,若是在此時用tcpdump工具監視網絡,會發現根本沒有TCP鏈接時客戶端發SYN包的網絡流量。這些狀況 說明問題在於本地Linux系統內核中有限制。其實,問題的根本緣由在於Linux內核的TCP/IP協議實現模塊對系統中全部的客戶端TCP鏈接對應的 本地端口號的範圍進行了限制(例如,內核限制本地端口號的範圍爲1024~32768之間)。當系統中某一時刻同時存在太多的TCP客戶端鏈接時,因爲每 個TCP客戶端鏈接都要佔用一個惟一的本地端口號(此端口號在系統的本地端口號範圍限制中),若是現有的TCP客戶端鏈接已將全部的本地端口號佔滿,則此 時就沒法爲新的TCP客戶端鏈接分配一個本地端口號了,所以系統會在這種狀況下在connect()調用中返回失敗,並將錯誤提示消息設爲「Can't assignrequested address」。有關這些控制邏輯能夠查看Linux內核源代碼,以linux2.6內核爲例,能夠查看tcp_ipv4.c文件中以下函數:
static int tcp_v4_hash_connect(struct sock *sk)
請注意上述函數中對變量sysctl_local_port_range的訪問控制。變量sysctl_local_port_range的初始化則是在 tcp.c文件中的以下函數中設置:
void __init tcp_init(void)
內核編譯時默認設置的本地端口號範圍可能過小,所以須要修改此本地端口範圍限制。
第一步,修改/etc/sysctl.conf文件,在文件中添加以下行:
net.ipv4.ip_local_port_range = 1024 65000
這代表將系統對本地端口範圍限制設置爲1024~65000之間。請注意,本地端口範圍的最小值必須大於或等於1024;而端口範圍的最大值則應小於或等 於65535。修改完後保存此文件。
第二步,執行sysctl命令:
[speng@as4 ~]$ sysctl -p
若是系統沒有錯誤提示,就代表新的本地端口範圍設置成功。若是按上述端口範圍進行設置,則理論上單獨一個進程最多能夠同時創建60000多個TCP客戶端 鏈接。

第二種沒法創建TCP鏈接的緣由多是由於Linux網絡內核的IP_TABLE防火牆對最大跟蹤的TCP鏈接數有限制。此時程序會表現爲在 connect()調用中阻塞,如同死機,若是用tcpdump工具監視網絡,也會發現根本沒有TCP鏈接時客戶端發SYN包的網絡流量。因爲 IP_TABLE防火牆在內核中會對每一個TCP鏈接的狀態進行跟蹤,跟蹤信息將會放在位於內核內存中的conntrackdatabase中,這個數據庫 的大小有限,當系統中存在過多的TCP鏈接時,數據庫容量不足,IP_TABLE沒法爲新的TCP鏈接創建跟蹤信息,因而表現爲在connect()調用 中阻塞。此時就必須修改內核對最大跟蹤的TCP鏈接數的限制,方法同修改內核對本地端口號範圍的限制是相似的:
第一步,修改/etc/sysctl.conf文件,在文件中添加以下行:
net.ipv4.ip_conntrack_max = 10240
這代表將系統對最大跟蹤的TCP鏈接數限制設置爲10240。請注意,此限制值要儘可能小,以節省對內核內存的佔用。
第二步,執行sysctl命令:
[speng@as4 ~]$ sysctl -p
若是系統沒有錯誤提示,就代表系統對新的最大跟蹤的TCP鏈接數限制修改爲功。若是按上述參數進行設置,則理論上單獨一個進程最多能夠同時創建10000 多個TCP客戶端鏈接。

三、使用支持高併發網絡I/O的編程技術

在Linux上編寫高併發TCP鏈接應用程序時,必須使用合適的網絡I/O技術和I/O事件分派機制。

可用的I/O技術有同步I/O,非阻塞式同步I/O(也稱反應式I/O),以及異步I/O。在高TCP併發的情形下,若是使用同步I/O,這會嚴重阻塞程 序的運轉,除非爲每一個TCP鏈接的I/O建立一個線程。可是,過多的線程又會因系統對線程的調度形成巨大開銷。所以,在高TCP併發的情形下使用同步 I/O是不可取的,這時能夠考慮使用非阻塞式同步I/O或異步I/O。非阻塞式同步I/O的技術包括使用select(),poll(),epoll等機 制。異步I/O的技術就是使用AIO。

從I/O事件分派機制來看,使用select()是不合適的,由於它所支持的併發鏈接數有限(一般在1024個之內)。若是考慮性能,poll()也是不 合適的,儘管它能夠支持的較高的TCP併發數,可是因爲其採用「輪詢」機制,當併發數較高時,其運行效率至關低,並可能存在I/O事件分派不均,致使部分 TCP鏈接上的I/O出現「飢餓」現象。而若是使用epoll或AIO,則沒有上述問題(早期Linux內核的AIO技術實現是經過在內核中爲每一個 I/O請求建立一個線程來實現的,這種實現機制在高併發TCP鏈接的情形下使用其實也有嚴重的性能問題。但在最新的Linux內核中,AIO的實現已經得 到改進)。

綜上所述,在開發支持高併發TCP鏈接的Linux應用程序時,應儘可能使用epoll或AIO技術來實現併發的TCP鏈接上的I/O控制,這將爲提高程序 對高併發TCP鏈接的支持提供有效的I/O保證。

Date: 2007-01-31
OS: Red Hat Enterprise Linux AS release 4 (kernel version 2.6.9-5.EL)

五種I/O 模式
----------------------------------------
在Linux/UNIX 下,有下面這五種I/O 操做方式:
阻塞I/O
非阻塞I/O
I/O 多路複用
信號驅動I/O(SIGIO)
異步I/O


程序進行輸入操做有兩步:
等待有數據能夠讀
將數據從系統內核中拷貝到程序的數據區。


對於一個對套接字的輸入操做:
第一步通常來講是,等待數據從網絡上傳到本地,當數據包到達的時候,數據將會從網絡層拷貝到內核的緩存中;
第二步是從內核中把數據拷貝到程序的數據區中


.阻塞I/O 模式
簡單的說,阻塞就是"睡眠"的同義詞
如你運行上面的listener 的時候,它只不過是簡單的在那裏等待接收數據。它調用recvfrom()函數,可是那個時候(listener 調用recvfrom()函數的時候),它並無數據能夠接收.因此recvfrom()函數阻塞在那裏(也就是程序停在recvfrom()函數處睡大 覺)直到有數據傳過來阻塞.你應該明白它的意思。

阻塞I/O 模式是最廣泛使用的I/O 模式。大部分程序使用的都是阻塞模式的I/O 。
缺省的,一個套接字創建後所處於的模式就是阻塞I/O 模式。

對於一個UDP 套接字來講,數據就緒的標誌比較簡單:
已經收到了一整個數據報 
沒有收到。

而TCP 這個概念就比較複雜,須要附加一些其餘的變量
一個進程調用recvfrom ,而後系統調用並不返回知道有數據報到達本地系統,而後系統將數據拷貝到進程的緩存中。
(若是系統調用收到一箇中斷信號,則它的調用會被中斷)咱們稱這個進程在調用recvfrom 一直到從recvfrom 返回這段時間是阻塞的。
當recvfrom正常返回時,咱們的進程繼續它的操做。


.非阻塞模式I/O
當咱們將一個套接字設置爲非阻塞模式,咱們至關於告訴了系統內核:「當我請求的I/O 操做不可以立刻完成,你想讓個人進程進行休眠等待的時候,不要這麼作,請立刻返回一個錯誤給我。」

如咱們開始對recvfrom 的三次調用,由於系統尚未接收到網絡數據,因此內核立刻返回一個EWOULDBLOCK的錯誤。
第四次咱們調用recvfrom 函數,一個數據報已經到達了,內核將它拷貝到咱們的應用程序的緩衝區中,而後recvfrom 正常返回,咱們就能夠對接收到的數據進行處理了。

當一個應用程序使用了非阻塞模式的套接字,它須要使用一個循環來不聽的測試是否一個文件描述符有數據可讀(稱作polling)。
應用程序不停的polling 內核來檢查是否I/O操做已經就緒。這將是一個極浪費CPU 資源的操做。這種模式使用中不是很廣泛

.I/O 多路複用 select()
在使用I/O 多路技術的時候,咱們調用select()函數和poll()函數,在調用它們的時候阻塞,而不是咱們來調用recvfrom(或recv)的時候阻塞。
當咱們調用select 函數阻塞的時候,select 函數等待數據報套接字進入讀就緒狀態。當select 函數返回的時候,也就是套接字能夠讀取數據的時候。這時候咱們就能夠調用recvfrom函數來將數據拷貝到咱們的程序緩衝區中。
和阻塞模式相比較,select()和poll()並無什麼高級的地方,並且,在阻塞模式下只須要調用一個函數:讀取或發送,在使用了多路複用技術後, 咱們須要調用兩個函數了:先調用select()函數或poll()函數,而後才能進行真正的讀寫。

多路複用的高級之處在於,它能同時等待多個文件描述符,而這些文件描述符(套接字描述符)其中的任意一個進入讀就緒狀態,select()函數就能夠返回


假設咱們運行一個網絡客戶端程序,要同時處理套接字傳來的網絡數據又要處理本地的標準輸入輸出。在咱們的程序處於阻塞狀態等待標準輸入的數據的時候,假如 服務器端的程序被kill(或是本身Down 掉了),那麼服務器程端的TCP 協議會給客戶端(咱們這端)的TCP 協議發送一個FIN 數據表明終止鏈接。可是咱們的程序阻塞在等待標準輸入的數據上,在它讀取套接字數據以前(也許是很長一段時間),它不會看見結束標誌.咱們就不可以使用阻 塞模式的套接字。

I/O多路技術通常在下面這些狀況中被使用:
當一個客戶端須要同時處理多個文件描述符的輸入輸出操做的時候(通常來講是標準的輸入輸出和網絡套接字), I/O 多路複用技術將會有機會獲得使用。
當程序須要同時進行多個套接字的操做的時候。
若是一個TCP 服務器程序同時處理正在偵聽網絡鏈接的套接字和已經鏈接好的套接字。
若是一個服務器程序同時使用TCP 和UDP 協議。
若是一個服務器同時使用多種服務而且每種服務可能使用不一樣的協議(好比inetd就是這樣的)。
linux

相關文章
相關標籤/搜索