這篇文章將試圖說明應用程序如何接收網絡上發送過來的TCP消息流,由於篇幅所限,暫時忽略ACK報文的回覆和接收窗口的滑動。
爲了快速掌握本文所要表達的思想,我們可以帶着以下問題閱讀:
1、應用程序調用read、recv等方法時,socket套接字可以設置爲阻塞或者非阻塞,這兩種方式是如何工作的?
2、若socket爲默認的阻塞套接字,此時recv方法傳入的len參數,是表示必須超時(SO_RCVTIMEO)或者接收到len長度的消息,recv方法纔會返回嗎?而且,socket上可以設置一個屬性叫做SO_RCVLOWAT,它會與len產生什麼樣的交集,又是決定recv等接收方法什麼時候返回?
3、應用程序開始收取TCP消息,與程序所在的機器網卡上接收到網絡裏發來的TCP消息,這是兩個獨立的流程。它們之間是如何互相影響的?例如,應用程序正在收取消息時,內核通過網卡又在這條TCP連接上收到消息時,究竟是如何處理的?若應用程序沒有調用read或者recv時,內核收到TCP連接上的消息後又是怎樣處理的?
4、recv這樣的接收方法還可以傳入各種flags,例如MSG_WAITALL、MSG_PEEK、MSG_TRUNK等等。它們是如何工作的?
5、1個socket套接字可能被多個進程在使用,出現併發訪問時,內核是怎麼處理這種狀況的?
6、linux的sysctl系統參數中,有類似tcp_low_latency這樣的開關,默認爲0或者配置爲1時是如何影響TCP消息處理流程的?
書接上文。本文將通過三幅圖講述三種典型的接收TCP消息場景,理清內核爲實現TCP消息的接收所實現的4個隊列容器。當然,瞭解內核的實現並不是目的,而是如何使用socket接口、如何配置操作系統內核參數,才能使TCP傳輸消息更高效,這纔是最終目的。
很多同學不希望被內核代碼擾亂了思維,如何閱讀本文呢?
我會在圖1的步驟都介紹完了纔來從代碼上說明tcp_v4_rcv等主要方法。像flags參數、非阻塞套接字會產生怎樣的效果我是在代碼介紹中說的。然後我會介紹圖2、圖3,介紹它們的步驟時我會穿插一些上文沒有涉及的少量代碼。不喜歡瞭解內核代碼的同學請直接看完圖1的步驟後,請跳到圖2、圖3中,我認爲這3幅圖覆蓋了主要的TCP接收場景,能夠幫助你理清其流程。
接收消息時調用的系統方法要比上一篇發送TCP消息複雜許多。接收TCP消息的過程可以一分爲二:首先是PC上的網卡接收到網線傳來的報文,通過軟中斷內核拿到並且解析其爲TCP報文,然後TCP模塊決定如何處理這個TCP報文。其次,用戶進程調用read、recv等方法獲取TCP消息,則是將內核已經從網卡上收到的消息流拷貝到用戶進程裏的內存中。
第一幅圖描述的場景是,TCP連接上將要收到的消息序號是S1(TCP上的每個報文都有序號,詳見《TCP/IP協議詳解》),此時操作系統內核依次收到了序號S1-S2的報文、S3-S4、S2-S3的報文,注意後兩個包亂序了。之後,用戶進程分配了一段len大小的內存用於接收TCP消息,此時,len是大於S4-S1的。另外,用戶進程始終沒有對這個socket設置過SO_RCVLOWAT參數,因此,接收閥值SO_RCVLOWAT使用默認值1。另外,系統參數tcp_low_latency設置爲0,即從操作系統的總體效率出發,使用prequeue隊列提升吞吐量。當然,由於用戶進程收消息時,並沒有新包來臨,所以此圖中prequeue隊列始終爲空。先不細表。
圖1如下:
上圖中有13個步驟,應用進程使用了阻塞套接字,調用recv等方法時flag標誌位爲0,用戶進程讀取套接字時沒有發生進程睡眠。內核在處理接收到的TCP報文時使用了4個隊列容器(當鏈表理解也可),分別爲receive、out_of_order、prequeue、backlog隊列,本文會說明它們存在的意義。下面詳細說明這13個步驟。
1、當網卡接收到報文並判斷爲TCP協議後,將會調用到內核的tcp_v4_rcv方法。此時,這個TCP連接上需要接收的下一個報文序號恰好就是S1,而這一步裏,網卡上收到了S1-S2的報文,所以,tcp_v4_rcv方法會把這個報文直接插入到receive隊列中。
注意:receive隊列是允許用戶進程直接讀取的,它是將已經接收到的TCP報文,去除了TCP頭部、排好序放入的、用戶進程可以直接按序讀取的隊列。由於socket不在進程上下文中(也就是沒有進程在讀socket),由於我們需要S1序號的報文,而恰好收到了S1-S2報文,因此,它進入了receive隊列。
2、接着,我們收到了S3-S4報文。在第1步結束後,這時我們需要收到的是S2序號,但到來的報文卻是S3打頭的,怎麼辦呢?進入out_of_order隊列!從這個隊列名稱就可以看出來,所有亂序的報文都會暫時放在這。
3、仍然沒有進入來讀取socket,但又過來了我們期望的S2-S3報文,它會像第1步一樣,直接進入receive隊列。不同的時,由於此時out_of_order隊列不像第1步是空的,所以,引發了接來的第4步。
4、每次向receive隊列插入報文時都會檢查out_of_order隊列。由於收到S2-S3報文後,期待的序號成爲了S3,這樣,out_of_order隊列裏的唯一報文S3-S4報文將會移出本隊列而插入到receive隊列中(這件事由tcp_ofo_queue方法完成)。
5、終於有用戶進程開始讀取socket了。做過應用端編程的同學都知道,先要在進程裏分配一塊內存,接着調用read或者recv等方法,把內存的首地址和內存長度傳入,再把建立好連接的socket也傳入。當然,對這個socket還可以配置其屬性。這裏,假定沒有設置任何屬性,都使用默認值,因此,此時socket是阻塞式,它的SO_RCVLOWAT是默認的1。當然,recv這樣的方法還會接收一個flag參數,它可以設置爲MSG_WAITALL、MSG_PEEK、MSG_TRUNK等等,這裏我們假定爲最常用的0。進程調用了recv方法。
6、無論是何種接口,C庫和內核經過層層封裝,接收TCP消息最終一定會走到tcp_recvmsg方法。下面介紹代碼細節時,它會是重點。
7、在tcp_recvmsg方法裏,會首先鎖住socket。爲什麼呢?因此socket是可以被多進程同時使用的,同時,內核中斷也會操作它,而下面的代碼都是核心的、操作數據的、有狀態的代碼,不可以被重入的,鎖住後,再有用戶進程進來時拿不到鎖就要休眠在這了。內核中斷看到被鎖住後也會做不同的處理,參見圖2、圖3。
8、此時,第1-4步已經爲receive隊列裏準備好了3個報文。最上面的報文是S1-S2,將它拷貝到用戶態內存中。由於第5步flag參數並沒有攜帶MSG_PEEK這樣的標誌位,因此,再將S1-S2報文從receive隊列的頭部移除,從內核態釋放掉。反之,MSG_PEEK標誌位會導致receive隊列不會刪除報文。所以,MSG_PEEK主要用於多進程讀取同一套接字的情形。
9、如第8步,拷貝S2-S3報文到用戶態內存中。當然,執行拷貝前都會檢查用戶態內存的剩餘空間是否足以放下當前這個報文,不足以時會直接返回已經拷貝的字節數。
10、同上。
11、receive隊列爲空了,此時會先來檢查SO_RCVLOWAT這個閥值。如果已經拷貝的字節數到現在還小於它,那麼可能導致進程會休眠,等待拷貝更多的數據。第5步已經說明過了,socket套接字使用的默認的SO_RCVLOWAT,也就是1,這表明,只要讀取到報文了,就認爲可以返回了。
做完這個檢查了,再檢查backlog隊列。backlog隊列是進程正在拷貝數據時,網卡收到的報文會進這個隊列。此時若backlog隊列有數據,就順帶處理下。圖3會覆蓋這種場景。
12、在本圖對應的場景中,backlog隊列是沒有數據的,已經拷貝的字節數爲S4-S1,它是大於1的,因此,釋放第7步里加的鎖,準備返回用戶態了。
13、用戶進程代碼開始執行,此時recv等方法返回的就是S4-S1,即從內核拷貝的字節數。
圖1描述的場景是最簡單的1種場景,下面我們來看看上述步驟是怎樣通過內核代碼實現的(以下代碼爲2.6.18內核代碼)。
我們知道,linux對中斷的處理是分爲上半部和下半部的,這是處於系統整體效率的考慮。我們將要介紹的都是在網絡軟中斷的下半部裏,例如這個tcp_v4_rcv方法。圖1中的第1-4步都是在這個方法裏完成的。
- int tcp_v4_rcv(struct sk_buff *skb)
- {
- ... ...
- //是否有進程正在使用這個套接字,將會對處理流程產生影響
- //或者從代碼層面上,只要在tcp_recvmsg裏,執行lock_sock後只能進入else,而release_sock後會進入if
- if (!sock_owned_by_user(sk)) {
- {
- //當 tcp_prequeue 返回0時,表示這個函數沒有處理該報文
- if (!tcp_prequeue(sk, skb))//如果報文放在prequeue隊列,即表示延後處理,不佔用軟中斷過長時間
- ret = tcp_v4_do_rcv(sk, skb);//不使用prequeue或者沒有用戶進程讀socket時(圖3進入此分支),立刻開始處理這個報文
- }
- } else
- sk_add_backlog(sk, skb);//如果進程正在操作套接字,就把skb指向的TCP報文插入到backlog隊列(圖3涉及此分支)
- ... ...
- }
圖1第1步裏,我們從網絡上收到了序號爲S1-S2的包。此時,沒有用戶進程在讀取套接字,因此,sock_owned_by_user(sk)會返回0。所以,tcp_prequeue方法將得到執行。簡單看看它:
- static inline int tcp_prequeue(struct sock *sk, struct sk_buff *skb)
- {
- struct tcp_sock *tp = tcp_sk(sk);
-
- //檢查tcp_low_latency,默認其爲0,表示使用prequeue隊列。tp->ucopy.task不爲0,表示有進程啓動了拷貝TCP消息的流程
- if (!sysctl_tcp_low_latency && tp->ucopy.task) {
- //到這裏,通常是用戶進程讀數據時沒讀到指定大小的數據,休眠了。直接將報文插入prequeue隊列的末尾,延後處理
- __skb_queue_tail(&tp->ucopy.prequeue, skb);
- tp->ucopy.memory += skb->truesize;
- //當然,雖然通常是延後處理,但如果TCP的接收緩衝區不夠用了,就會立刻處理prequeue隊列裏的所有報文
- if (tp->ucopy.memory > sk->sk_rcvbuf) {
- while ((skb1 = __skb_dequeue(&tp->ucopy.prequeue)) != NULL) {
- //sk_backlog_rcv就是下文將要介紹的tcp_v4_do_rcv方法
- sk->sk_backlog_rcv(sk, skb1);
- }
- } else if (skb_queue_len(&tp->ucopy.prequeue) == 1) {
- //prequeue裏有報文了,喚醒正在休眠等待數據的進程,讓進程在它的上下文中處理這個prequeue隊列的報文
- wake_up_interruptible(sk->sk_sleep);
- }
-
- return 1;
- }
- //prequeue沒有處理
- return 0;
- }
由於tp->ucopy.task此時是NULL,所以我們收到的第1個報文在tcp_prequeue函數裏直接返回了0,因此,將由 tcp_v4_do_rcv方法處理。
- int tcp_v4_do_rcv(struct sock *sk, struct sk_buff *skb)
- {
- if (sk->sk_state == TCP_ESTABLISHED) { /* Fast path */
- //當TCP連接已經建立好時,是由tcp_rcv_established方法處理接收報文的
- if (tcp_rcv_established(sk, skb, skb->h.th, skb->len))
- goto reset;
-
- return 0;
- }
- ... ...
- }
tcp_rcv_established方法在圖1裏,主要調用tcp_data_queue方法將報文放入隊列中,繼續看看它又幹了些什麼事:
- static void tcp_data_queue(struct sock *sk, struct sk_buff *skb)
- {
- struct tcp_sock *tp = tcp_sk(sk);
-
- //如果這個報文是待接收的報文(看seq),它有兩個出路:進入receive隊列,正如圖1;直接拷貝到用戶內存中,如圖3
- if (TCP_SKB_CB(skb)->seq == tp->rcv_nxt) {
- //滑動窗口外的包暫不考慮,篇幅有限,下次再細談
- if (tcp_receive_window(tp) == 0)
- goto out_of_window;
-
- //如果有一個進程正在讀取socket,且正準備要拷貝的序號就是當前報文的seq序號
- if (tp->ucopy.task == current &&
- tp->copied_seq == tp->rcv_nxt && tp->ucopy.len &&
- sock_owned_by_user(sk) && !tp->urg_data) {
- //直接將報文內容拷貝到用戶態內存中,參見圖3
- if (!skb_copy_datagram_iovec(skb, 0, tp->ucopy.iov, chunk)) {
- tp->ucopy.len -= chunk;
- tp->copied_seq += chunk;
- }
- }
-
- if (eaten <= 0) {
- queue_and_out:
- //如果沒有能夠直接拷貝到用戶內存中,那麼,插入receive隊列吧,正如圖1中的第1、3步
- __skb_queue_tail(&sk->sk_receive_queue, skb);
- }
- //更新待接收的序號,例如圖1第1步中,更新爲S2
- tp->rcv_nxt = TCP_SKB_CB(skb)->end_seq;
-
- //正如圖1第4步,這時會檢查out_of_order隊列,若它不爲空,需要處理它
- if (!skb_queue_empty(&tp->out_of_order_queue)) {
- //tcp_ofo_queue方法會檢查out_of_order隊列中的所有報文
- tcp_ofo_queue(sk);
- }
- }
- ... ...
-
- //這個包是無序的,又在接收滑動窗口內,那麼就如圖1第2步,把報文插入到out_of_order隊列吧
- if (!skb_peek(&tp->out_of_order_queue)) {
- __skb_queue_head(&tp->out_of_order_queue,skb);
- } else {
- ... ...
- __skb_append(skb1, skb, &tp->out_of_order_queue);
- }
- }
圖1第4步時,正是通過tcp_ofo_queue方法把之前亂序的S3-S4報文插入receive隊列的。
- static void tcp_ofo_queue(struct sock *sk)
- {
- struct tcp_sock *tp = tcp_sk(sk);
- __u32 dsack_high = tp->rcv_nxt;
- struct sk_buff *skb;
- //遍歷out_of_order隊列
- while ((skb = skb_peek(&tp->out_of_order_queue)) != NULL) {
- ... ...
- //若這個報文可以按seq插入有序的receive隊列中,則將其移出out_of_order隊列
- __skb_unlink(skb, &tp->out_of_order_queue);
- //插入receive隊列
- __skb_queue_tail(&sk->sk_receive_queue, skb);
- //更新socket上待接收的下一個有序seq
- tp->rcv_nxt = TCP_SKB_CB(skb)->end_seq;
- }
- }
下面再介紹圖1第6步提到的tcp_recvmsg方法。
- //參數裏的len就是read、recv方法裏的內存長度,flags正是方法的flags參數,nonblock則是阻塞、非阻塞標誌位
- int tcp_recvmsg(struct kiocb *iocb, struct sock *sk, struct msghdr *msg,
- size_t len, int nonblock, int flags, int *addr_len)
- {
- //鎖住socket,防止多進程併發訪問TCP連接,告知軟中斷目前socket在進程上下文中
- lock_sock(sk);
-
- //初始化errno這個錯誤碼
- err = -ENOTCONN;
-
- //如果socket是阻塞套接字,則取出SO_RCVTIMEO作爲讀超時時間;若爲非阻塞,則timeo爲0。下面會看到timeo是如何生效的
- timeo = sock_rcvtimeo(sk, nonblock);
-
- //獲取下一個要拷貝的字節序號
- //注意:seq的定義爲u32 *seq;,它是32位指針。爲何?因爲下面每向用戶態內存拷貝後,會更新seq的值,這時就會直接更改套接字上的copied_seq
- seq = &tp->copied_seq;
- //當flags參數有MSG_PEEK標誌位時,意味着這次拷貝的內容,當再次讀取socket時(比如另一個進程)還能再次讀到
- if (flags & MSG_PEEK) {
- //所以不會更新copied_seq,當然,下面會看到也不會刪除報文,不會從receive隊列中移除報文
- peek_seq = tp->copied_seq;
- seq = &peek_seq;
- }
-
- //獲取SO_RCVLOWAT最低接收閥值,當然,target實際上是用戶態內存大小len和SO_RCVLOWAT的最小值
- //注意:flags參數中若攜帶MSG_WAITALL標誌位,則意味着必須等到讀取到len長度的消息才能返回,此時target只能是len
- target = sock_rcvlowat(sk, flags & MSG_WAITALL, len);
-
- //以下開始讀取消息
- do {
- //從receive隊列取出1個報文
- skb = skb_peek(&sk->sk_receive_queue);
- do {
- //沒取到退出當前循環
- if (!skb)
- break;
-
-
- //offset是待拷貝序號在當前這個報文中的偏移量,在圖1、2、3中它都是0,只有因爲用戶內存不足以接收完1個報文時才爲非0
- offset = *seq - TCP_SKB_CB(skb)->seq;
- //有些時候,三次握手的SYN包也會攜帶消息內容的,此時seq是多出1的(SYN佔1個序號),所以offset減1
- if (skb->h.th->syn)
- offset--;
- //若偏移量還有這個報文之內,則認爲它需要處理
- if (offset < skb->len)
- goto found_ok_skb;
-
- skb = skb->next;
- } while (skb != (struct sk_buff *)&sk->sk_receive_queue);
-
- //如果receive隊列爲空,則檢查已經拷貝的字節數,是否達到了SO_RCVLOWAT或者長度len。滿足了,且backlog隊列也爲空,則可以返回用戶態了,正如圖1的第11步
- if (copied >= target && !sk->sk_backlog.tail)
- break;
-
- //在tcp_recvmsg裏,copied就是已經拷貝的字節數
- if (copied) {
- ... ...
- } else {
- //一個字節都沒拷貝到,但如果shutdown關閉了socket,一樣直接返回。當然,本文不涉及關閉連接
- if (sk->sk_shutdown & RCV_SHUTDOWN)
- break;
-
- //如果使用了非阻塞套接字,此時timeo爲0
- if (!timeo) {
- //非阻塞套接字讀取不到數據時也會返回,錯誤碼正是EAGAIN
- copied = -EAGAIN;
- break;
- }
- ... ...
- }
-
- //tcp_low_latency默認是關閉的,圖1、圖2都是如此,圖3則例外,即圖3不會走進這個if
- if (!sysctl_tcp_low_latency && tp->ucopy.task == user_recv) {
- //prequeue隊列就是爲了提高系統整體效率的,即prequeue隊列有可能不爲空,這是因爲進程休眠等待時可能有新報文到達prequeue隊列
- if (!skb_queue_empty(&tp->ucopy.prequeue))
- goto do_prequeue;
- }
-
- //如果已經拷貝了的字節數超過了最低閥值
- if (copied >= target) {
- //release_sock這個方法會遍歷、處理backlog隊列中的報文
- release_sock(sk);
- lock_sock(sk);
- } else
- sk_wait_data(sk, &timeo);//沒有讀取到足夠長度的消息,因此會進程休眠,如果沒有被喚醒,最長睡眠timeo時間
-
- if (user_recv) {
- if (tp->rcv_nxt == tp->copied_seq &&
- !skb_queue_empty(&tp->ucopy.prequeue)) {
- do_prequeue:
- //接上面代碼段,開始處理prequeue隊列裏的報文
- tcp_prequeue_process(sk);
- }
- }
-
- //繼續處理receive隊列的下一個報文
- continue;
-
- found_ok_skb:
- /* Ok so how much can we use? */
- //receive隊列的這個報文從其可以使用的偏移量offset,到總長度len之間,可以拷貝的長度爲used
- used = skb->len - offset;
- //len是用戶態空閒內存,len更小時,當然只能拷貝len長度消息,總不能導致內存溢出吧
- if (len < used)
- used = len;
-
- //MSG_TRUNC標誌位表示不要管len這個用戶態內存有多大,只管拷貝數據吧
- if (!(flags & MSG_TRUNC)) {
- {
- //向用戶態拷貝數據
- err = skb_copy_datagram_iovec(skb, offset,
- msg->msg_iov, used);
- }
- }
-
- //因爲是指針,所以同時更新copied_seq--下一個待接收的序號
- *seq += used;
- //更新已經拷貝的長度
- copied += used;
- //更新用戶態內存的剩餘空閒空間長度
- len -= used;
-
- ... ...
- } while (len > 0);
-
- //已經裝載了接收器
- if (user_recv) {
- //prequeue隊列不爲空則處理之
- if (!skb_queue_empty(&tp->ucopy.prequeue)) {
- tcp_prequeue_process(sk);
- }
-
- //準備返回用戶態,socket上不再裝載接收任務
- tp->ucopy.task = NULL;
- tp->ucopy.len = 0;
- }
-
- //釋放socket時,還會檢查、處理backlog隊列中的報文
- release_sock(sk);
- //向用戶返回已經拷貝的字節數
- return copied;
- }
圖2給出了第2種場景,這裏涉及到prequeue隊列。用戶進程調用recv方法時,連接上沒有任何接收並緩存到內核的報文,而socket是阻塞的,所以進程睡眠了。然後網卡中收到了TCP連接上的報文,此時prequeue隊列開始產生作用。圖2中tcp_low_latency爲默認的0,套接字socket的SO_RCVLOWAT是默認的1,仍然是阻塞socket,如下圖:
簡單描述上述11個步驟:
1、用戶進程分配了一塊len大小的內存,將其傳入recv這樣的函數,同時socket參數皆爲默認,即阻塞的、SO_RCVLOWAT爲1。調用接收方法,其中flags參數爲0。
2、C庫和內核最終調用到tcp_recvmsg方法來處理。
3、鎖住socket。
4、由於此時receive、prequeue、backlog隊列都是空的,即沒有拷貝1個字節的消息到用戶內存中,而我們的最低要求是拷貝至少SO_RCVLOWAT爲1長度的消息。此時,開始進入阻塞式套接字的等待流程。最長等待時間爲SO_RCVTIMEO指定的時間。
這個等待函數叫做sk_wait_data,有必要看下其實現:
- int sk_wait_data(struct sock *sk, long *timeo)
- {
- //注意,它的自動喚醒條件有兩個,要麼timeo時間到達,要麼receive隊列不爲空
- rc = sk_wait_event(sk, timeo, !skb_queue_empty(&sk->sk_receive_queue));
- }
sk_wait_event也值得我們簡單看下:
- #define sk_wait_event(__sk, __timeo, __condition) \
- ({ int rc; \
- release_sock(__sk); \
- rc = __condition; \
- if (!rc) { \
- *(__timeo) = schedule_timeout(*(__timeo)); \
- } \
- lock_sock(__sk); \
- rc = __condition; \
- rc; \
- })
注意,它在睡眠前會調用release_sock,這個方法會釋放socket鎖,使得下面的第5步中,新到的報文不再只能進入backlog隊列。
5、這個套接字上期望接收的序號也是S1,此時網卡恰好收到了S1-S2的報文,在tcp_v4_rcv方法中,通過調用tcp_prequeue方法把報文插入到prequeue隊列中。
6、插入prequeue隊列後,此時會接着調用wake_up_interruptible方法,喚醒在socket上睡眠的進程。參見tcp_prequque方法。
7、用戶進程被喚醒後,重新調用lock_sock接管了這個socket,此後再進來的報文都只能進入backlog隊列了。
8、進程醒來後,先去檢查receive隊列,當然仍然是空的;再去檢查prequeue隊列,發現有一個報文S1-S2,正好是socket連接待拷貝的起始序號S1,於是,從prequeue隊列中取出這個報文並把內容複製到用戶內存中,再釋放內核中的這個報文。
9、目前已經拷貝了S2-S1個字節到用戶態,檢查這個長度是否超過了最低閥值(即len和SO_RCVLOWAT的最小值)。
10、由於SO_RCVLOWAT使用了默認的1,所以準備返回用戶。此時會順帶再看看backlog隊列中有沒有數據,若有,則檢查這個無序的隊列中是否有可以直接拷貝給用戶的報文。當然,此時是沒有的。所以準備返回,釋放socket鎖。
11、返回用戶已經拷貝的字節數。
圖3給出了第3種場景。這個場景中,我們把系統參數tcp_low_latency設爲1,socket上設置了SO_RCVLOWAT屬性的值。服務器先是收到了S1-S2這個報文,但S2-S1的長度是小於SO_RCVLOWAT的,用戶進程調用recv方法讀套接字時,雖然讀到了一些,但沒有達到最小閥值,所以進程睡眠了,與此同時,在睡眠前收到的亂序的S3-S4包直接進入backlog隊列。此時先到達了S2-S3包,由於沒有使用prequeue隊列,而它起始序號正是下一個待拷貝的值,所以直接拷貝到用戶內存中,總共拷貝字節數已滿足SO_RCVLOWAT的要求!最後在返回用戶前把backlog隊列中S3-S4報文也拷貝給用戶了。如下圖:
簡明描述上述15個步驟:
1、內核收到報文S1-S2,S1正是這個socket連接上待接收的序號,因此,直接將它插入有序的receive隊列中。
2、用戶進程所處的linux操作系統上,將sysctl中的tcp_low_latency設置爲1。這意味着,這臺服務器希望TCP進程能夠更及時的接收到TCP消息。用戶調用了recv方法接收socket上的消息,這個socket上設置了SO_RCVLOWAT屬性爲某個值n,這個n是大於S2-S1,也就是第1步收到的報文大小。這裏,仍然是阻塞socket,用戶依然是分配了足夠大的len長度內存以接收TCP消息。
3、通過tcp_recvmsg方法來完成接收工作。先鎖住socket,避免併發進程讀取同一socket的同時,也在告訴內核網絡軟中斷處理到這一socket時要有不同行爲,如第6步。
4、準備處理內核各個接收隊列中的報文。
5、receive隊列中的有序報文可直接拷貝,在檢查到S2-S1是小於len之後,將報文內容拷貝到用戶態內存中。
6、在第5步進行的同時,socket是被鎖住的,這時內核又收到了一個S3-S4報文,因此報文直接進入backlog隊列。注意,這個報文不是有序的,因爲此時連接上期待接收序號爲S2。
7、在第5步,拷貝了S2-S1個字節到用戶內存,它是小於SO_RCVLOWAT的,因此,由於socket是阻塞型套接字(超時時間在本文中忽略),進程將不得不轉入睡眠。轉入睡眠之前,還會幹一件事,就是處理backlog隊列裏的報文,圖2的第4步介紹過休眠方法sk_wait_data,它在睡眠前會執行release_sock方法,看看是如何實現的:
- void fastcall release_sock(struct sock *sk)
- {
- mutex_release(&sk->sk_lock.dep_map, 1, _RET_IP_);
-
- spin_lock_bh(&sk->sk_lock.slock);
- //這裏會遍歷backlog隊列中的每一個報文
- if (sk->sk_backlog.tail)
- __release_sock(sk);
- //這裏是網絡中斷執行時,告訴內核,現在socket並不在進程上下文中
- sk->sk_lock.owner = NULL;
- if (waitqueue_active(&sk->sk_lock.wq))
- wake_up(&sk->sk_lock.wq);
- spin_unlock_bh(&sk->sk_lock.slock);
- }
再看看__release_sock方法是如何遍歷backlog隊列的:
- static void __release_sock(struct sock *sk)
- {
- struct sk_buff *skb = sk->sk_backlog.head;
-
- //遍歷backlog隊列
- do {
- sk->sk_backlog.head = sk->sk_backlog.tail = NULL;
- bh_unlock_sock(sk);
-
- do {
- struct sk_buff *next = skb->next;
-
- skb->next = NULL;
- //處理報文,其實就是tcp_v4_do_rcv方法,上文介紹過,不再贅述
- sk->sk_backlog_rcv(sk, skb);
-
- cond_resched_softirq();
-
- skb = next;
- } while (skb != NULL);
-
- bh_lock_sock(sk);
- } while((skb = sk->sk_backlog.head) != NULL);
- }
此時遍歷到S3-S4報文,但因爲它是失序的,所以從backlog隊列中移入out_of_order隊列中(參見上文說過的tcp_ofo_queue方法)。
8、進程休眠,直到超時或者receive隊列不爲空。
9、內核接收到了S2-S3報文。注意,這裏由於打開了tcp_low_latency標誌位,這個報文是不會進入prequeue隊列以待進程上下文處理的。
10、此時,由於S2是連接上正要接收的序號,同時,有一個用戶進程正在休眠等待接收數據中,且它要等待的數據起始序號正是S2,於是,這種種條件下,使得這一步同時也是網絡軟中斷執行上下文中,把S2-S3報文直接拷貝進用戶內存。
11、上文介紹tcp_data_queue方法時大家可以看到,每處理完1個有序報文(無論是拷貝到receive隊列還是直接複製到用戶內存)後都會檢查out_of_order隊列,看看是否有報文可以處理。那麼,S3-S4報文恰好是待處理的,於是拷貝進用戶內存。然後喚醒用戶進程。
12、用戶進程被喚醒了,當然喚醒後會先來拿到socket鎖。以下執行又在進程上下文中了。
13、此時會檢查已拷貝的字節數是否大於SO_RCVLOWAT,以及backlog隊列是否爲空。兩者皆滿足,準備返回。
14、釋放socket鎖,退出tcp_recvmsg方法。
15、返回用戶已經複製的字節數S4-S1。
好了,這3個場景讀完,想必大家對於TCP的接收流程是怎樣的已經非常清楚了,本文起始的6個問題也在這一大篇中都涉及到了。下一篇我們來討論TCP連接的關閉。
TCP連接的關閉有兩個方法close和shutdown,這篇文章將盡量精簡的說明它們分別做了些什麼。
爲方便閱讀,我們可以帶着以下5個問題來閱讀本文:
1、當socket被多進程或者多線程共享時,關閉連接時有何區別?
2、關連接時,若連接上有來自對端的還未處理的消息,會怎麼處理?
3、關連接時,若連接上有本進程待發送卻未來得及發送出的消息,又會怎麼處理?
4、so_linger這個功能的用處在哪?
5、對於監聽socket執行關閉,和對處於ESTABLISH這種通訊的socket執行關閉,有何區別?
下面分三部分進行:首先說說多線程多進程關閉連接的區別;再用一幅流程圖談談close;最後用一幅流程圖說說shutdown。
先不提其原理和實現,從多進程、多線程下 close和shutdown方法調用時的區別說起。
看看close與shutdown這兩個系統調用對應的內核函數:(參見unistd.h文件)
- #define __NR_close 3
- __SYSCALL(__NR_close, sys_close)
- #define __NR_shutdown 48
- __SYSCALL(__NR_shutdown, sys_shutdown)
但sys_close和sys_shutdown這兩個系統調用最終是由tcp_close和tcp_shutdown方法來實現的,調用過程如下圖所示:
sys_shutdown與多線程和多進程都沒有任何關係,而sys_close則不然,上圖中可以看到,層層封裝調用中有一個方法叫fput,它有一個引用計數,記錄這個socket被引用了多少次。在說明多線程或者多進程調用close的區別前,先在代碼上簡單看下close是怎麼調用的,對內核代碼沒興趣的同學可以僅看fput方法:
- void fastcall fput(struct file *file)
- {
- if (atomic_dec_and_test(&file->f_count))//檢查引用計數,直到爲0纔會真正去關閉socket
- __fput(file);
- }
當這個socket的引用計數f_count不爲0時,是不會觸發到真正關閉TCP連接的tcp_close方法的。
那麼,這個引用計數的意義何在呢?爲了說明它,先要說道下進程與線程的區別。
大家知道,所謂線程其實就是「輕量級」的進程。創建進程只能是一個進程(父進程)創建另一個進程(子進程),子進程會複製父進程的資源,這裏的」複製「針對不同的資源其意義是不同的,例如對內存、文件、TCP連接等。創建進程是由clone系統調用實現的,而創建線程時同樣也是clone實現的,只不過clone的參數不同,其行爲也很不同。這個話題是很大的,這裏我們僅討論下TCP連接。
在clone系統調用中,會調用方法copy_files來拷貝文件描述符(包括socket)。創建線程時,傳入的flag參數中包含標誌位CLONE_FILES,此時,線程將會共享父進程中的文件描述符。而創建進程時沒有這個標誌位,這時,會把進程打開的所有文件描述符的引用計數加1,即把file數據結構的f_count成員加1,如下:
- static int copy_files(unsigned long clone_flags, struct task_struct * tsk)
- {
- if (clone_flags & CLONE_FILES) {
- goto out;//創建線程
- }
- newf = dup_fd(oldf, &error);
- out:
- return error;
- }
再看看dup_fd方法:
- static struct files_struct *dup_fd(struct files_struct *oldf, int *errorp)
- {
- for (i = open_files; i != 0; i--) {
- struct file *f = *old_fds++;
- if (f) {
- get_file(f);//創建進程
- }
- }
- }
get_file宏就會加引用計數。
- #define get_file(x) atomic_inc(&(x)->f_count)
所以,子進程會將父進程中已經建立的socket加上引用計數。當進程中close一個socket時,只會減少引用計數,僅當引用計數爲0時纔會觸發tcp_close。
到這裏,對於第一個問題的close調用自然有了結論:單線程(進程)中使用close與多線程中是一致的,但這兩者與多進程的行爲並不一致,多進程中共享的同一個socket必須都調用了close纔會真正的關閉連接。
而shutdown則不然,這裏是沒有引用計數什麼事的,只要調用了就會去試圖按需關閉連接。所以,調用shutdown與多線程、多進程無關。
下面我們首先深入探討下close的行爲,因爲close比較shutdown來說要複雜許多。順便回答其餘四個問題。
TCP連接是一種雙工的連接,何謂雙工?即連接雙方可以並行的發送或者接收消息,而無須顧及對方此時到底在發還是收消息。這樣,關閉連接時,就存在3種情形:完全關閉連接;關閉發送消息的功能;關閉接收消息的功能。其中,後兩者就叫做半關閉,由shutdown實現(所以 shutdown多出一個參數正是控制關閉發送或者關閉接收),前者由close實現。
TCP連接是一種可靠的連接,在這裏可以這麼理解:既要確認本機發出的包得到確認,又要確認收到的任何消息都已告知連接的對端。
以下主要從雙工、可靠性這兩點上理解連接的關閉。
TCP雙工的這個特性使得連接的正常關閉需要四次握手,其含義爲:主動端關閉了發送的功能;被動端認可;被動端也關閉了發送的功能;主動端認可。
但還存在程序異常的情形,此時,則通過異常的那端發送RST復位報文通知另一端關閉連接。
下圖是close的主要流程:
這個圖稍複雜,這是因爲它覆蓋了關閉監聽句柄、關閉普通連接、關閉設置了SO_LINGER的連接這三種主要場景。
1)關閉監聽句柄
先從最右邊的分支說說關閉監聽socket的那些事。用於listen的監聽句柄也是使用close關閉,關閉這樣的句柄含義當然很不同,它本身並不對應着某個TCP連接,但是,附着在它之上的卻可能有半成品連接。什麼意思呢?之前說過TCP是雙工的,它的打開需要三次握手,三次握手也就是3個步驟,其含義爲:客戶端打開接收、發送的功能;服務器端認可並也打開接收、發送的功能;客戶端認可。當第1、2步驟完成、第3步步驟未完成時,就會在服務器上有許多半連接,close這個操作主要是清理這些連接。
參照上圖,close首先會移除keepalive定時器。keepalive功能常用於服務器上,防止僵死、異常退出的客戶端佔用服務器連接資源。移除此定時器後,若ESTABLISH狀態的TCP連接在tcp_keepalive_time時間(如服務器上常配置爲2小時)內沒有通訊,服務器就會主動關閉連接。
接下來,關閉每一個半連接。如何關閉半連接?這時當然不能發FIN包,即正常的四次握手關閉連接,而是會發送RST復位標誌去關閉請求。處理完所有半打開的連接close的任務就基本完成了。
2)關閉普通ESTABLISH狀態的連接(未設置so_linger)
首先檢查是否有接收到卻未處理的消息。
如果close調用時存在收到遠端的、沒有處理的消息,這時根據close這一行爲的意義,是要丟棄這些消息的。但丟棄消息後,意味着連接遠端誤以爲發出的消息已經被本機收到處理了(因爲ACK包確認過了),但實際上確是收到未處理,此時也不能使用正常的四次握手關閉,而是會向遠端發送一個RST非正常復位關閉連接。這個做法的依據請參考draft-ietf-tcpimpl-prob-03.txt文檔3.10節,
Failure to RST on close with data pending。所以,這也要求我們程序員在關閉連接時,要確保已經接收、處理了連接上的消息。
如果此時沒有未處理的消息,那麼進入發送FIN來關閉連接的階段。
這時,先看看是否有待發送的消息。前一篇已經說過,發消息時要計算滑動窗口、擁塞窗口、angle算法等,這些因素可能導致消息會延遲發送的。如果有待發送的消息,那麼要盡力保證這些消息都發出去的。所以,會在最後一個報文中加入FIN標誌,同時,關閉用於減少網絡中小報文的angle算法,向連接對端發送消息。如果沒有待發送的消息,則構造一個報文,僅含有FIN標誌位,發送出去關閉連接。
3)使用了so_linger的連接
首先要澄清,爲何要有so_linger這個功能?因爲我們可能有強可靠性的需求,也就是說,必須確保發出的消息、FIN都被對方收到。例如,有些響應發出後調用close關閉連接,接下來就會關閉進程。如果close時發出的消息其實丟失在網絡中了,那麼,進程突然退出時連接上發出的RST就可能被對方收到,而且,之前丟失的消息不會有重發來保障可靠性了。
so_linger用來保證對方收到了close時發出的消息,即,至少需要對方通過發送ACK且到達本機。
怎麼保證呢?等待!close會阻塞住進程,直到確認對方收到了消息再返回。然而,網絡環境又得複雜的,如果對方總是不響應怎麼辦?所以還需要l_linger這個超時時間,控制close阻塞進程的最長時間。注意,務必慎用so_linger,它會在不經意間降低你程序中代碼的執行速度(close的阻塞)。
所以,當這個進程設置了so_linger後,前半段依然沒變化。檢查是否有未讀消息,若有則發RST關連接,不會觸發等待。接下來檢查是否有未發送的消息時與第2種情形一致,設好FIN後關閉angle算法發出。接下來,則會設置最大等待時間l_linger,然後開始將進程睡眠,直到確認對方收到後纔會醒來,將控制權交還給用戶進程。
這裏需要注意,so_linger不是確保連接被四次握手關閉再使close返回,而只是保證我方發出的消息都已被對方收到。例如,若對方程序寫的有問題,當它收到FIN進入CLOSE_WAIT狀態,卻一直不調用close發出FIN,此時,對方仍然會通過ACK確認,我方收到了ACK進入FIN_WAIT2狀態,但沒收到對方的FIN,我方的close調用卻不會再阻塞,close直接返回,控制權交還用戶進程。
從上圖可知,so_linger還有個偏門的用法,若l_linger超時時間竟被設爲0,則不會觸發FIN包的發送,而是直接RST復位關閉連接。我個人認爲,這種玩法確沒多大用處。
最後做個總結。調用close時,可能導致發送RST復位關閉連接,例如有未讀消息、打開so_linger但l_linger卻爲0、關閉監聽句柄時半打開的連接。更多時會導致發FIN來四次握手關閉連接,但打開so_linger可能導致close阻塞住等待着對方的ACK表明收到了消息。
最後來看看較爲簡單的shutdown。
1)shutdown可攜帶一個參數,取值有3個,分別意味着:只關閉讀、只關閉寫、同時關閉讀寫。
對於監聽句柄,如果參數爲關閉寫,顯然沒有任何意義。但關閉讀從某方面來說是有意義的,例如不再接受新的連接。看看最右邊藍色分支,針對監聽句柄,若參數爲關閉寫,則不做任何事;若爲關閉讀,則把端口上的半打開連接使用RST關閉,與close如出一轍。
2)若shutdown的是半打開的連接,則發出RST來關閉連接。
3)若shutdown的是正常連接,那麼關閉讀其實與對端是沒有關係的。只要本機把接收掉的消息丟掉,其實就等價於關閉讀了,並不一定非要對端關閉寫的。實際上,shutdown正是這麼幹的。若參數中的標誌位含有關閉讀,只是標識下,當我們調用read等方法時這個標識就起作用了,會使進程讀不到任何數據。
4)若參數中有標誌位爲關閉寫,那麼下面做的事與close是一致的:發出FIN包,告訴對方,本機不會再發消息了。
以上,就是close與shutdown的主要行爲,同時也回答了本文最初的5個問題。下一篇,我們開始討論多路複用中常見的epoll。