淺析 Linux 中的零拷貝技術

時間 2020-07-24

標籤淺析 linux 拷貝技術欄目 Linux 简体版

原文原文鏈接

本文探討Linux中主要的幾種零拷貝技術以及零拷貝技術適用的場景。爲了迅速創建起零拷貝的概念，咱們拿一個經常使用的場景進行引入：緩存

引文

在寫一個服務端程序時（Web Server或者文件服務器），文件下載是一個基本功能。這時候服務端的任務是：將服務端主機磁盤中的文件不作修改地從已鏈接的socket發出去，咱們一般用下面的代碼完成：服務器

while((n = read(diskfd, buf, BUF_SIZE)) > 0)
write(sockfd, buf , n);

基本操做就是循環的從磁盤讀入文件內容到緩衝區，再將緩衝區的內容發送到socket。可是因爲Linux的I/O操做默認是緩衝I/O。這裏面主要使用的也就是read和write兩個系統調用，咱們並不知道操做系統在其中作了什麼。實際上在以上I/O操做中，發生了屢次的數據拷貝。網絡

當應用程序訪問某塊數據時，操做系統首先會檢查，是否是最近訪問過此文件，文件內容是否緩存在內核緩衝區，若是是，操做系統則直接根據read系統調用提供的buf地址，將內核緩衝區的內容拷貝到buf所指定的用戶空間緩衝區中去。若是不是，操做系統則首先將磁盤上的數據拷貝的內核緩衝區，這一步目前主要依靠DMA來傳輸，而後再把內核緩衝區上的內容拷貝到用戶緩衝區中。socket

接下來，write系統調用再把用戶緩衝區的內容拷貝到網絡堆棧相關的內核緩衝區中，最後socket再把內核緩衝區的內容發送到網卡上。說了這麼多，不如看圖清楚：spa

數據拷貝操作系統

從上圖中能夠看出，共產生了四次數據拷貝，即便使用了DMA來處理了與硬件的通信，CPU仍然須要處理兩次數據拷貝，與此同時，在用戶態與內核態也發生了屢次上下文切換，無疑也加劇了CPU負擔。3d

在此過程當中，咱們沒有對文件內容作任何修改，那麼在內核空間和用戶空間來回拷貝數據無疑就是一種浪費，而零拷貝主要就是爲了解決這種低效性。指針

什麼是零拷貝技術（zero-copy）？

零拷貝主要的任務就是避免CPU將數據從一塊存儲拷貝到另一塊存儲，主要就是利用各類零拷貝技術，避免讓CPU作大量的數據拷貝任務，減小沒必要要的拷貝，或者讓別的組件來作這一類簡單的數據傳輸任務，讓CPU解脫出來專一於別的任務。這樣就可讓系統資源的利用更加有效。code

咱們繼續回到引文中的例子，咱們如何減小數據拷貝的次數呢？一個很明顯的着力點就是減小數據在內核空間和用戶空間來回拷貝，這也引入了零拷貝的一個類型：blog

讓數據傳輸不須要通過 user space。

使用 mmap

咱們減小拷貝次數的一種方法是調用mmap()來代替read調用：

buf = mmap(diskfd, len);
write(sockfd, buf, len);

應用程序調用mmap()，磁盤上的數據會經過DMA被拷貝的內核緩衝區，接着操做系統會把這段內核緩衝區與應用程序共享，這樣就不須要把內核緩衝區的內容往用戶空間拷貝。應用程序再調用write(),操做系統直接將內核緩衝區的內容拷貝到socket緩衝區中，這一切都發生在內核態，最後，socket緩衝區再把數據發到網卡去。一樣的，看圖很簡單：

mmap

使用mmap替代read很明顯減小了一次拷貝，當拷貝數據量很大時，無疑提高了效率。可是使用mmap是有代價的。當你使用mmap時，你可能會遇到一些隱藏的陷阱。例如，當你的程序map了一個文件，可是當這個文件被另外一個進程截斷(truncate)時, write系統調用會由於訪問非法地址而被SIGBUS信號終止。SIGBUS信號默認會殺死你的進程併產生一個coredump,若是你的服務器這樣被停止了，那會產生一筆損失。

一般咱們使用如下解決方案避免這種問題：

1. 爲SIGBUS信號創建信號處理程序

當遇到SIGBUS信號時，信號處理程序簡單地返回，write系統調用在被中斷以前會返回已經寫入的字節數，而且errno會被設置成success,可是這是一種糟糕的處理辦法，由於你並無解決問題的實質核心。

2. 使用文件租借鎖

一般咱們使用這種方法，在文件描述符上使用租借鎖，咱們爲文件向內核申請一個租借鎖，當其它進程想要截斷這個文件時，內核會向咱們發送一個實時的RTSIGNALLEASE信號，告訴咱們內核正在破壞你加持在文件上的讀寫鎖。這樣在程序訪問非法內存而且被SIGBUS殺死以前，你的write系統調用會被中斷。write會返回已經寫入的字節數，而且置errno爲success。

咱們應該在mmap文件以前加鎖，而且在操做完文件後解鎖：

if(fcntl(diskfd, F_SETSIG, RT_SIGNAL_LEASE) == -1) {
perror("kernel lease set signal");
return -1;
}
/* l_type can be F_RDLCK F_WRLCK 加鎖*/
/* l_type can be F_UNLCK 解鎖*/
if(fcntl(diskfd, F_SETLEASE, l_type)){
perror("kernel lease set type");
return -1;
}

使用sendfile

從2.1版內核開始，Linux引入了sendfile來簡化操做:

#include<sys/sendfile.h>
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

系統調用sendfile()在表明輸入文件的描述符infd和表明輸出文件的描述符outfd之間傳送文件內容（字節）。描述符outfd必須指向一個套接字，而infd指向的文件必須是能夠mmap的。這些侷限限制了sendfile的使用，使sendfile只能將數據從文件傳遞到套接字上，反之則不行。

使用sendfile不只減小了數據拷貝的次數，還減小了上下文切換，數據傳送始終只發生在kernel space。

sendfile系統調用過程

在咱們調用sendfile時，若是有其它進程截斷了文件會發生什麼呢？假設咱們沒有設置任何信號處理程序，sendfile調用僅僅返回它在被中斷以前已經傳輸的字節數，errno會被置爲success。若是咱們在調用sendfile以前給文件加了鎖，sendfile的行爲仍然和以前相同，咱們還會收到RTSIGNALLEASE的信號。

目前爲止，咱們已經減小了數據拷貝的次數了，可是仍然存在一次拷貝，就是頁緩存到socket緩存的拷貝。那麼能不能把這個拷貝也省略呢？

藉助於硬件上的幫助，咱們是能夠辦到的。以前咱們是把頁緩存的數據拷貝到socket緩存中，實際上，咱們僅僅須要把緩衝區描述符傳到socket緩衝區，再把數據長度傳過去，這樣DMA控制器直接將頁緩存中的數據打包發送到網絡中就能夠了。

總結一下，sendfile系統調用利用DMA引擎將文件內容拷貝到內核緩衝區去，而後將帶有文件位置和長度信息的緩衝區描述符添加socket緩衝區去，這一步不會將內核中的數據拷貝到socket緩衝區中，DMA引擎會將內核緩衝區的數據拷貝到協議引擎中去，避免了最後一次拷貝。

帶DMA的sendfile

不過這一種收集拷貝功能是須要硬件以及驅動程序支持的。

使用splice

sendfile只適用於將數據從文件拷貝到套接字上，限定了它的使用範圍。Linux在2.6.17版本引入splice系統調用，用於在兩個文件描述符中移動數據：

#define _GNU_SOURCE /* See feature_test_macros(7) */
#include<fcntl.h>
ssize_t splice(int fd_in, loff_t *off_in, int fd_out, loff_t *off_out, size_t len, unsignedint flags);

splice調用在兩個文件描述符之間移動數據，而不須要數據在內核空間和用戶空間來回拷貝。他從fdin拷貝len長度的數據到fdout，可是有一方必須是管道設備，這也是目前splice的一些侷限性。flags參數有如下幾種取值：

SPLICEFMOVE ：嘗試去移動數據而不是拷貝數據。這僅僅是對內核的一個小提示：若是內核不能從pipe移動數據或者pipe的緩存不是一個整頁面，仍然須要拷貝數據。Linux最初的實現有些問題，因此從2.6.21開始這個選項不起做用，後面的Linux版本應該會實現。
SPLICEFNONBLOCK ：splice 操做不會被阻塞。然而，若是文件描述符沒有被設置爲不可被阻塞方式的 I/O ，那麼調用 splice 有可能仍然被阻塞。
SPLICEFMORE：後面的splice調用會有更多的數據。

splice調用利用了Linux提出的管道緩衝區機制，因此至少一個描述符要爲管道。

以上幾種零拷貝技術都是減小數據在用戶空間和內核空間拷貝技術實現的，可是有些時候，數據必須在用戶空間和內核空間之間拷貝。這時候，咱們只能針對數據在用戶空間和內核空間拷貝的時機上下功夫了。Linux一般利用寫時複製(copy on write)來減小系統開銷，這個技術又時常稱做COW。

因爲篇幅緣由，本文不詳細介紹寫時複製。大概描述下就是：若是多個程序同時訪問同一塊數據，那麼每一個程序都擁有指向這塊數據的指針，在每一個程序看來，本身都是獨立擁有這塊數據的，只有當程序須要對數據內容進行修改時，纔會把數據內容拷貝到程序本身的應用空間裏去，這時候，數據才成爲該程序的私有數據。若是程序不須要對數據進行修改，那麼永遠都不須要拷貝數據到本身的應用空間裏。這樣就減小了數據的拷貝。寫時複製的內容能夠再寫一篇文章了。。。

除此以外，還有一些零拷貝技術，好比傳統的Linux I/O中加上O_DIRECT標記能夠直接I/O，避免了自動緩存，還有還沒有成熟的fbufs技術，本文還沒有覆蓋全部零拷貝技術，只是介紹常見的一些，若有興趣，能夠自行研究，通常成熟的服務端項目也會本身改造內核中有關I/O的部分，提升本身的數據傳輸速率。

做者：卡巴拉的樹_
https://www.jianshu.com/p/fad...

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。