Linux內核 TCP/IP、Socket參數調優

/proc/sys/net目錄

  全部的TCP/IP參數都位於/proc/sys/net目錄下(請注意,對/proc/sys/net目錄下內容的修改都是臨時的,任何修改在系統重啓後都會丟失),例以下面這些重要的參數:html

參數(路徑+文件)linux

描述算法

默認值shell

優化值服務器

/proc/sys/net/core/rmem_defaultcookie

默認的TCP數據接收窗口大小(字節)。網絡

229376socket

256960tcp

/proc/sys/net/core/rmem_max性能

最大的TCP數據接收窗口(字節)。

131071

513920

/proc/sys/net/core/wmem_default

默認的TCP數據發送窗口大小(字節)。

229376

256960

/proc/sys/net/core/wmem_max

最大的TCP數據發送窗口(字節)。

131071

513920

/proc/sys/net/core/netdev_max_backlog

在每一個網絡接口接收數據包的速率比內核處理這些包的速率快時,容許送到隊列的數據包的最大數目。

1000

2000

/proc/sys/net/core/somaxconn

定義了系統中每個端口最大的監聽隊列的長度,這是個全局的參數。

128

2048

/proc/sys/net/core/optmem_max

表示每一個套接字所容許的最大緩衝區的大小。

20480

81920

/proc/sys/net/ipv4/tcp_mem

確 定TCP棧應該如何反映內存使用,每一個值的單位都是內存頁(一般是4KB)。第一個值是內存使用的下限;第二個值是內存壓力模式開始對緩衝區使用應用壓力 的上限;第三個值是內存使用的上限。在這個層次上能夠將報文丟棄,從而減小對內存的使用。對於較大的BDP能夠增大這些值(注意,其單位是內存頁而不是字 節)。

94011  125351  188022

131072  262144  524288

/proc/sys/net/ipv4/tcp_rmem

爲 自動調優定義socket使用的內存。第一個值是爲socket接收緩衝區分配的最少字節數;第二個值是默認值(該值會被rmem_default覆 蓋),緩衝區在系統負載不重的狀況下能夠增加到這個值;第三個值是接收緩衝區空間的最大字節數(該值會被rmem_max覆蓋)。

4096  87380  4011232

8760  256960  4088000

/proc/sys/net/ipv4/tcp_wmem

爲 自動調優定義socket使用的內存。第一個值是爲socket發送緩衝區分配的最少字節數;第二個值是默認值(該值會被wmem_default覆 蓋),緩衝區在系統負載不重的狀況下能夠增加到這個值;第三個值是發送緩衝區空間的最大字節數(該值會被wmem_max覆蓋)。

4096  16384  4011232

8760  256960  4088000

/proc/sys/net/ipv4/tcp_keepalive_time

TCP發送keepalive探測消息的間隔時間(秒),用於確認TCP鏈接是否有效。

7200

1800

/proc/sys/net/ipv4/tcp_keepalive_intvl

探測消息未得到響應時,重發該消息的間隔時間(秒)。

75

30

/proc/sys/net/ipv4/tcp_keepalive_probes

在認定TCP鏈接失效以前,最多發送多少個keepalive探測消息。

9

3

/proc/sys/net/ipv4/tcp_sack

啓用有選擇的應答(1表示啓用),經過有選擇地應答亂序接收到的報文來提升性能,讓發送者只發送丟失的報文段,(對於廣域網通訊來講)這個選項應該啓用,可是會增長對CPU的佔用。

1

1

/proc/sys/net/ipv4/tcp_fack

啓用轉發應答,能夠進行有選擇應答(SACK)從而減小擁塞狀況的發生,這個選項也應該啓用。

1

1

/proc/sys/net/ipv4/tcp_timestamps

TCP時間戳(會在TCP包頭增長12個字節),以一種比重發超時更精確的方法(參考RFC 1323)來啓用對RTT 的計算,爲實現更好的性能應該啓用這個選項。

1

1

/proc/sys/net/ipv4/tcp_window_scaling

啓用RFC 1323定義的window scaling,要支持超過64KB的TCP窗口,必須啓用該值(1表示啓用),TCP窗口最大至1GB,TCP鏈接雙方都啓用時才生效。

1

1

/proc/sys/net/ipv4/tcp_syncookies

表示是否打開TCP同步標籤(syncookie),內核必須打開了CONFIG_SYN_COOKIES項進行編譯,同步標籤能夠防止一個套接字在有過多試圖鏈接到達時引發過載。

1

1

/proc/sys/net/ipv4/tcp_tw_reuse

表示是否容許將處於TIME-WAIT狀態的socket(TIME-WAIT的端口)用於新的TCP鏈接 。

0

1

/proc/sys/net/ipv4/tcp_tw_recycle

可以更快地回收TIME-WAIT套接字。

0

1

/proc/sys/net/ipv4/tcp_fin_timeout

對於本端斷開的socket鏈接,TCP保持在FIN-WAIT-2狀態的時間(秒)。對方可能會斷開鏈接或一直不結束鏈接或不可預料的進程死亡。

60

30

/proc/sys/net/ipv4/ip_local_port_range

表示TCP/UDP協議容許使用的本地端口號

32768  61000

1024  65000

/proc/sys/net/ipv4/tcp_max_syn_backlog

對於還未得到對方確認的鏈接請求,可保存在隊列中的最大數目。若是服務器常常出現過載,能夠嘗試增長這個數字。

2048

2048

/proc/sys/net/ipv4/tcp_low_latency

容許TCP/IP棧適應在高吞吐量狀況下低延時的狀況,這個選項應該禁用。

0

 

/proc/sys/net/ipv4/tcp_westwood

啓用發送者端的擁塞控制算法,它能夠維護對吞吐量的評估,並試圖對帶寬的總體利用狀況進行優化,對於WAN 通訊來講應該啓用這個選項。

0

 

/proc/sys/net/ipv4/tcp_bic

爲快速長距離網絡啓用Binary Increase Congestion,這樣能夠更好地利用以GB速度進行操做的連接,對於WAN通訊應該啓用這個選項。

1

 

 


/etc/sysctl.conf文件

  /etc /sysctl.conf是一個容許你改變正在運行中的Linux系統的接口。它包含一些TCP/IP堆棧和虛擬內存系統的高級選項,可用來控制 Linux網絡配置,因爲/proc/sys/net目錄內容的臨時性,建議把TCPIP參數的修改添加到/etc/sysctl.conf文件, 而後保存文件,使用命令「/sbin/sysctl –p」使之當即生效。具體修改方案參照上文:

net.core.rmem_default = 256960

net.core.rmem_max = 513920

net.core.wmem_default = 256960

net.core.wmem_max = 513920

net.core.netdev_max_backlog = 2000

net.core.somaxconn = 2048

net.core.optmem_max = 81920

net.ipv4.tcp_mem = 131072  262144  524288

net.ipv4.tcp_rmem = 8760  256960  4088000

net.ipv4.tcp_wmem = 8760  256960  4088000

net.ipv4.tcp_keepalive_time = 1800

net.ipv4.tcp_keepalive_intvl = 30

net.ipv4.tcp_keepalive_probes = 3

net.ipv4.tcp_sack = 1

net.ipv4.tcp_fack = 1

net.ipv4.tcp_timestamps = 1

net.ipv4.tcp_window_scaling = 1

net.ipv4.tcp_syncookies = 1

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_tw_recycle = 1

net.ipv4.tcp_fin_timeout = 30

net.ipv4.ip_local_port_range = 1024  65000

net.ipv4.tcp_max_syn_backlog = 2048

 

Doc2:

   可調優的內核變量存在兩種主要接口:sysctl命令和/proc文件系統,proc中與進程無關的全部信息都被移植到sysfs中。IPV4協議棧的 sysctl參數主要是sysctl.net.core、sysctl.net.ipv4,對應的/proc文件系統是/proc/sys/net /ipv4和/proc/sys/net/core。只有內核在編譯時包含了特定的屬性,該參數纔會出如今內核中。

    對於內核參數應該謹慎調節,這些參數一般會影響到系統的總體性能。內核在啓動時會根據系統的資源狀況來初始化特定的變量,這種初始化的調節通常會知足一般的性能需求。

    應用程序經過socket系統調用和遠程主機進行通信,每個socket都有一個讀寫緩衝區。讀緩衝區保存了遠程主機發送過來的數據,若是緩衝區已滿, 則數據會被丟棄,寫緩衝期保存了要發送到遠程主機的數據,若是寫緩衝區已慢,則系統的應用程序在寫入數據時會阻塞。可知,緩衝區是有大小的。

socket緩衝區默認大小
/proc/sys/net/core/rmem_default     對應net.core.rmem_default
/proc/sys/net/core/wmem_default     對應net.core.wmem_default
    上面是各類類型socket的默認讀寫緩衝區大小,然而對於特定類型的socket則能夠設置獨立的值覆蓋默認值大小。例如tcp類型的socket就能夠用/proc/sys/net/ipv4/tcp_rmem和tcp_wmem來覆蓋。

socket緩衝區最大值:
/proc/sys/net/core/rmem_max        對應net.core.rmem_max
/proc/sys/net/core/wmem_max        對應net.core.wmem_max

/proc/sys/net/core/netdev_max_backlog    對應 net.core.netdev_max_backlog
    該參數定義了當接口收到包的速率大於內核處理包的速率時,設備的輸入隊列中的最大報文數。

/proc/sys/net/core/somaxconn        對應 net.core.somaxconn
    經過listen系統調用能夠指定的最大accept隊列backlog,當排隊的請求鏈接大於該值時,後續進來的請求鏈接會被丟棄。

/proc/sys/net/core/optmem_max          對應 net.core.optmem_max
    每一個socket的副緩衝區大小。

TCP/IPV4內核參數:
    在建立socket的時候會指定socke協議和地址類型。TCP socket緩衝區大小是他本身控制而不是由core內核緩衝區控制。
/proc/sys/net/ipv4/tcp_rmem     對應net.ipv4.tcp_rmem
/proc/sys/net/ipv4/tcp_wmem     對應net.ipv4.tcp_wmem
    以上是TCP socket的讀寫緩衝區的設置,每一項裏面都有三個值,第一個值是緩衝區最小值,中間值是緩衝區的默認值,最後一個是緩衝區的最大值,雖然緩衝區的值不受core緩衝區的值的限制,可是緩衝區的最大值仍舊受限於core的最大值。

/proc/sys/net/ipv4/tcp_mem  
    該內核參數也是包括三個值,用來定義內存管理的範圍,第一個值的意思是當page數低於該值時,TCP並不認爲他爲內存壓力,第二個值是進入內存的壓力區 域時所達到的頁數,第三個值是全部TCP sockets所容許使用的最大page數,超過該值後,會丟棄後續報文。page是以頁面爲單位的,爲系統中socket全局分配的內存容量。

socket的結構以下圖:

/proc/sys/net/ipv4/tcp_window_scaling      對應net.ipv4.tcp_window_scaling
    管理TCP的窗口縮放特性,由於在tcp頭部中聲明接收緩衝區的長度爲26位,所以窗口不能大於64K,若是大於64K,就要打開窗口縮放。

/proc/sys/net/ipv4/tcp_sack    對應net.ipv4.tcp_sack
    管理TCP的選擇性應答,容許接收端向發送端傳遞關於字節流中丟失的序列號,減小了段丟失時須要重傳的段數目,當段丟失頻繁時,sack是頗有益的。

/proc/sys/net/ipv4/tcp_dsack   對應net.ipv4.tcp_dsack
    是對sack的改進,可以檢測沒必要要的重傳。

/proc/sys/net/ipv4/tcp_fack    對應net.ipv4.tcp_fack
    對sack協議加以完善,改進tcp的擁塞控制機制。

TCP的鏈接管理:
/proc/sys/net/ipv4/tcp_max_syn_backlog    對應net.ipv4.tcp_max_syn_backlog
    每個鏈接請求(SYN報文)都須要排隊,直至本地服務器接收,該變量就是控制每一個端口的 TCP SYN隊列長度的。若是鏈接請求多餘該值,則請求會被丟棄。

/proc/sys/net/ipv4/tcp_syn_retries    對應net.ipv4.tcp_syn_retries
    控制內核向某個輸入的SYN/ACK段從新發送相應的次數,低值能夠更好的檢測到遠程主機的鏈接失敗。能夠修改成3

/proc/sys/net/ipv4/tcp_retries1    對應net.ipv4.tcp_retries1
    該變量設置放棄迴應一個tcp鏈接請求前,須要進行多少次重試。

/proc/sys/net/ipv4/tcp_retries2    對應net.ipv4.tcp_retries2
    控制內核向已經創建鏈接的遠程主機從新發送數據的次數,低值能夠更早的檢測到與遠程主機失效的鏈接,所以服務器能夠更快的釋放該鏈接,能夠修改成5

TCP鏈接的保持:
/proc/sys/net/ipv4/tcp_keepalive_time        對應net.ipv4.tcp_keepalive_time
    若是在該參數指定的秒數內鏈接始終處於空閒狀態,則內核向客戶端發起對該主機的探測

/proc/sys/net/ipv4/tcp_keepalive_intvl    對應net.ipv4.tcp_keepalive_intvl
    該參數以秒爲單位,規定內核向遠程主機發送探測指針的時間間隔

/proc/sys/net/ipv4/tcp_keepalive_probes   對應net.ipv4.tcp_keepalive_probes
    該參數規定內核爲了檢測遠程主機的存活而發送的探測指針的數量,若是探測指針的數量已經使用完畢仍舊沒有獲得客戶端的響應,即判定客戶端不可達,關閉與該客戶端的鏈接,釋放相關資源。

/proc/sys/net/ipv4/ip_local_port_range   對應net.ipv4.ip_local_port_range
    規定了tcp/udp可用的本地端口的範圍。

TCP鏈接的回收:
/proc/sys/net/ipv4/tcp_max_tw_buckets     對應net.ipv4.tcp_max_tw_buckets
   該參數設置系統的TIME_WAIT的數量,若是超過默認值則會被當即清除。

/proc/sys/net/ipv4/tcp_tw_reuse           對應net.ipv4.tcp_tw_reuse
   該參數設置TIME_WAIT重用,可讓處於TIME_WAIT的鏈接用於新的tcp鏈接

/proc/sys/net/ipv4/tcp_tw_recycle         對應net.ipv4.tcp_tw_recycle
   該參數設置tcp鏈接中TIME_WAIT的快速回收。

/proc/sys/net/ipv4/tcp_fin_timeout       對應net.ipv4.tcp_fin_timeout
   設置TIME_WAIT2進入CLOSED的等待時間。

/proc/sys/net/ipv4/route/max_size
   內核所容許的最大路由數目。

/proc/sys/net/ipv4/ip_forward
   接口間轉發報文

/proc/sys/net/ipv4/ip_default_ttl
   報文能夠通過的最大跳數

虛擬內存參數:
/proc/sys/vm/


   在linux kernel 2.6.25以前經過ulimit -n(setrlimit(RLIMIT_NOFILE))設置每一個進程的最大打開文件句柄數不能超過NR_OPEN(1024*1024),也就是 100多w(除非從新編譯內核),而在25以後,內核導出了一個sys接口能夠修改這個最大值/proc/sys/fs/nr_open。shell裏不 能直接更改,是由於登陸的時候pam已經從limits.conf中設置了上限,ulimit命令只能在低於上限的範圍內發揮了。

Linux中查看socket狀態:
cat /proc/net/sockstat #(這個是ipv4的)

sockets: used 137
TCP: inuse 49 orphan 0 tw 3272 alloc 52 mem 46
UDP: inuse 1 mem 0
RAW: inuse 0
FRAG: inuse 0 memory 0
說明:
sockets: used:已使用的全部協議套接字總量
TCP: inuse:正在使用(正在偵聽)的TCP套接字數量。其值≤ netstat –lnt | grep ^tcp | wc –l
TCP: orphan:無主(不屬於任何進程)的TCP鏈接數(無用、待銷燬的TCP socket數)
TCP: tw:等待關閉的TCP鏈接數。其值等於netstat –ant | grep TIME_WAIT | wc –l
TCP:alloc(allocated):已分配(已創建、已申請到sk_buff)的TCP套接字數量。其值等於netstat –ant | grep ^tcp | wc –l
TCP:mem:套接字緩衝區使用量(單位不詳。用scp實測,速度在4803.9kB/s時:其值=11,netstat –ant 中相應的22端口的Recv-Q=0,Send-Q≈400)
UDP:inuse:正在使用的UDP套接字數量
RAW:
FRAG:使用的IP段數量

 

 

參考:http://www.mjmwired.net/kernel/Documentation/sysctl/

 

轉載:http://www.360doc.com/content/14/0606/16/3300331_384326124.shtml

相關文章
相關標籤/搜索