【Networkk】一篇文章徹底搞清楚 scoket read/write 返回碼、阻塞與非阻塞、異常處理 等讓你頭疼已久的問題

 

 

淺談TCP/IP網絡編程中socket的行爲

 

我認爲,想要熟練掌握Linux下的TCP/IP網絡編程,至少有三個層面的知識須要熟悉:html

1. TCP/IP協議(如鏈接的創建和終止、重傳和確認、滑動窗口和擁塞控制等等)linux

2. Socket I/O系統調用(重點如read/write),這是TCP/IP協議在應用層表現出來的行爲。git

3. 編寫Performant, Scalable的服務器程序。包括多線程、IO Multiplexing、非阻塞、異步等各類技術。github

關於TCP/IP協議,建議參考Richard Stevens的《TCP/IP Illustrated,vol1》(TCP/IP詳解卷1)。golang

關於第二層面,依然建議Richard Stevens的《Unix network proggramming,vol1》(Unix網絡編程卷1),這兩本書公認是Unix網絡編程的聖經。編程

至於第三個層面,UNP的書中有所說起,也有著名的C10K問題,業界也有各類各樣的框架和解決方案,本人才疏學淺,在這裏就不一一敷述。promise

 

本文的重點在於第二個層面,主要總結一下Linux下TCP/IP網絡編程中的read/write系統調用的行爲,知識來源於本身網絡編程的粗淺經驗和對《Unix網絡編程卷1》相關章節的總結。因爲本人接觸Linux下網絡編程時間不長,錯誤和疏漏再所不免,望看官不吝賜教。服務器

 

一. read/write的語義:爲何會阻塞?網絡

先從write提及:多線程

#include <unistd.h>
ssize_t write(int fd, const void *buf, size_t count);

首先,write成功返回,只是buf中的數據被複制到了kernel中的TCP發送緩衝區。至於數據何時被髮往網絡,何時被對方主機接收,何時被對方進程讀取,系統調用層面不會給予任何保證和通知。

write在什麼狀況下會阻塞?當kernel的該socket的發送緩衝區已滿時。對於每一個socket,擁有本身的send buffer和receive buffer。從Linux 2.6開始,兩個緩衝區大小都由系統來自動調節(autotuning),但通常在default和max之間浮動。

# 獲取socket的發送/接受緩衝區的大小:(後面的值是在我在Linux 2.6.38 x86_64上測試的結果)
sysctl net.core.wmem_default       #126976
sysctl net.core.wmem_max     #131071
sysctl net.core.wmem_default #126976
sysctl net.core.wmem_max #131071

已經發送到網絡的數據依然須要暫存在send buffer中,只有收到對方的ack後,kernel才從buffer中清除這一部分數據,爲後續發送數據騰出空間。接收端將收到的數據暫存在receive buffer中,自動進行確認。但若是socket所在的進程不及時將數據從receive buffer中取出,最終致使receive buffer填滿,因爲TCP的滑動窗口和擁塞控制,接收端會阻止發送端向其發送數據。這些控制皆發生在TCP/IP棧中,對應用程序是透明的,應用程序繼續發送數據,最終致使send buffer填滿,write調用阻塞。

通常來講,因爲接收端進程從socket讀數據的速度跟不上發送端進程向socket寫數據的速度,最終致使發送端write調用阻塞。

而read調用的行爲相對容易理解,從socket的receive buffer中拷貝數據到應用程序的buffer中。read調用阻塞,一般是發送端的數據沒有到達。

 

二. blocking(默認)和nonblock模式下read/write行爲的區別:

將socket fd設置爲nonblock(非阻塞)是在服務器編程中常見的作法,採用blocking IO併爲每個client建立一個線程的模式開銷巨大且可擴展性不佳(帶來大量的切換開銷),更爲通用的作法是採用線程池+Nonblock I/O+Multiplexing(select/poll,以及Linux上特有的epoll)。

1
2
3
4
5
6
7
8
// 設置一個文件描述符爲nonblock
int  set_nonblocking( int  fd)
{
     int  flags;
     if  ((flags = fcntl(fd, F_GETFL, 0)) == -1)
         flags = 0;
     return  fcntl(fd, F_SETFL, flags | O_NONBLOCK);
}

幾個重要的結論:

1. read老是在接收緩衝區有數據時當即返回,而不是等到給定的read buffer填滿時返回。

只有當receive buffer爲空時,blocking模式纔會等待,而nonblock模式下會當即返回-1(errno = EAGAIN或EWOULDBLOCK)

2. blocking的write只有在緩衝區足以放下整個buffer時才返回(與blocking read並不相同)

nonblock write則是返回可以放下的字節數,以後調用則返回-1(errno = EAGAIN或EWOULDBLOCK)

 對於blocking的write有個特例:當write正阻塞等待時對面關閉了socket,則write則會當即將剩餘緩衝區填滿並返回所寫的字節數,再次調用則write失敗(connection reset by peer),這正是下個小節要提到的:

 

三. read/write對鏈接異常的反饋行爲:

對應用程序來講,與另外一進程的TCP通訊實際上是徹底異步的過程:

1. 我並不知道對面何時、可否收到個人數據

2. 我不知道何時可以收到對面的數據

3. 我不知道何時通訊結束(主動退出或是異常退出、機器故障、網絡故障等等)

對於1和2,採用write() -> read() -> write() -> read() ->...的序列,經過blocking read或者nonblock read+輪詢的方式,應用程序基於能夠保證正確的處理流程。

對於3,kernel將這些事件的「通知」經過read/write的結果返回給應用層。

 

假設A機器上的一個進程a正在和B機器上的進程b通訊:某一時刻a正阻塞在socket的read調用上(或者在nonblock下輪詢socket)

當b進程終止時,不管應用程序是否顯式關閉了socket(OS會負責在進程結束時關閉全部的文件描述符,對於socket,則會發送一個FIN包到對面)。

」同步通知「:進程a對已經收到FIN的socket調用read,若是已經讀完了receive buffer的剩餘字節,則會返回EOF:0

」異步通知「:若是進程a正阻塞在read調用上(前面已經提到,此時receive buffer必定爲空,由於read在receive buffer有內容時就會返回),則read調用當即返回EOF,進程a被喚醒。

socket在收到FIN後,雖然調用read會返回EOF,但進程a依然能夠其調用write,由於根據TCP協議,收到對方的FIN包只意味着對方不會再發送任何消息。 在一個雙方正常關閉的流程中,收到FIN包的一端將剩餘數據發送給對面(經過一次或屢次write),而後關閉socket。

可是事情遠遠沒有想象中簡單。優雅地(gracefully)關閉一個TCP鏈接,不只僅須要雙方的應用程序遵照約定,中間還不能出任何差錯。

假如b進程是異常終止的,發送FIN包是OS代勞的,b進程已經不復存在,當機器再次收到該socket的消息時,會迴應RST(由於擁有該socket的進程已經終止)。a進程對收到RST的socket調用write時,操做系統會給a進程發送SIGPIPE,默認處理動做是終止進程,知道你的進程爲何毫無徵兆地死亡了吧:)

from 《Unix Network programming, vol1》 3rd Edition:

"It is okay to write to a socket that has received a FIN, but it is an error to write to a socket that has received an RST."

經過以上的敘述,內核經過socket的read/write將雙方的鏈接異常通知到應用層,雖然很不直觀,彷佛也夠用。

這裏說一句題外話:

不知道有沒有同窗會和我有同樣的感慨:在寫TCP/IP通訊時,彷佛沒怎麼考慮鏈接的終止或錯誤,只是在read/write錯誤返回時關閉socket,程序彷佛也能正常運行,但某些狀況下老是會出奇怪的問題。想完美處理各類錯誤,卻發現怎麼也作不對。

緣由之一是:socket(或者說TCP/IP棧自己)對錯誤的反饋能力是有限的。

 

考慮這樣的錯誤狀況:

不一樣於b進程退出(此時OS會負責爲全部打開的socket發送FIN包),當B機器的OS崩潰(注意不一樣於人爲關機,由於關機時全部進程的退出動做依然可以獲得保證)/主機斷電/網絡不可達時,a進程根本不會收到FIN包做爲鏈接終止的提示。

若是a進程阻塞在read上,那麼結果只能是永遠的等待。

若是a進程先write而後阻塞在read,因爲收不到B機器TCP/IP棧的ack,TCP會持續重傳12次(時間跨度大約爲9分鐘),而後在阻塞的read調用上返回錯誤:ETIMEDOUT/EHOSTUNREACH/ENETUNREACH

假如B機器剛好在某個時候恢復和A機器的通路,並收到a某個重傳的pack,由於不能識別因此會返回一個RST,此時a進程上阻塞的read調用會返回錯誤ECONNREST

恩,socket對這些錯誤仍是有必定的反饋能力的,前提是在對面不可達時你依然作了一次write調用,而不是輪詢或是阻塞在read上,那麼老是會在重傳的週期內檢測出錯誤。若是沒有那次write調用,應用層永遠不會收到鏈接錯誤的通知。

write的錯誤最終經過read來通知應用層,有點陰差陽錯?

 

四. 還須要作什麼?

至此,咱們知道了僅僅經過read/write來檢測異常狀況是不靠譜的,還須要一些額外的工做:

1. 使用TCP的KEEPALIVE功能?

複製代碼
cat /proc/sys/net/ipv4/tcp_keepalive_time
7200

cat /proc/sys/net/ipv4/tcp_keepalive_intvl
75

cat /proc/sys/net/ipv4/tcp_keepalive_probes
9
複製代碼

以上參數的大體意思是:keepalive routine每2小時(7200秒)啓動一次,發送第一個probe(探測包),若是在75秒內沒有收到對方應答則重發probe,當連續9個probe沒有被應答時,認爲鏈接已斷。(此時read調用應該可以返回錯誤,待測試)

但在我印象中keepalive不太好用,默認的時間間隔太長,又是整個TCP/IP棧的全局參數:修改會影響其餘進程,Linux的下彷佛能夠修改per socket的keepalive參數?(但願有使用經驗的人可以指點一下),可是這些方法不是portable的。

 

2. 進行應用層的心跳

嚴格的網絡程序中,應用層的心跳協議是必不可少的。雖然比TCP自帶的keep alive要麻煩很多(怎樣正確地實現應用層的心跳,我或許會用一篇專門的文章來談一談),但有其最大的優勢:可控。

固然,也能夠簡單一點,針對鏈接作timeout,關閉一段時間沒有通訊的」空閒「鏈接。這裏能夠參考一篇文章:

Muduo 網絡編程示例之八:Timing wheel 踢掉空閒鏈接 by 陳碩

 

參考資料:

《TCP/IP Illustrated, vol 1》 by Richard Stevens

《Unix Network Programming, vol 1》(3rd Edition) by Richard Stevens

Linux TCP tuning

Using TCP keepalive under Linux

 

 

 

(牆裂推薦)參考資料:

http://blog.163.com/zhang0j_21/blog/static/1941154252014116101843410/

http://www.cnblogs.com/promise6522/archive/2012/03/03/2377935.html

http://www.oschina.net/translate/tcp-keepalive-with-golang

https://www.zhihu.com/question/22925358

https://github.com/3workman/GoServer

https://my.oschina.net/yunfound/blog/141222

http://www.01happy.com/golang-tcp-socket-adhere/

相關文章
相關標籤/搜索