轉自 風吹過夏天的ChinaUnix博客html
1. 內核中提升I/O性能的新方法epolllinux
epoll是什麼?按照man手冊的說法:是爲處理大批量句柄而做了改進的poll。要使用epoll只須要這三個系統調 用:epoll_create(2), epoll_ctl(2), epoll_wait(2)。固然,這不是2.6內核纔有的,它是在 2.5.44內核中被引進的(epoll(4) is a new API introduced in Linux kernel 2.5.44)
Linux2.6 內核epoll介紹:
先介紹2本書《The Linux Networking Architecture--Design and Implementation of Network Protocols in the Linux Kernel》,以2.4內核講解Linux TCP/IP實現,至關不錯.做爲一個現實世界中的實現,不少時候你必須做不少權衡,這時候參考一個久經考驗的系統更有實際意義。舉個例子linux內 核中sk_buff結構爲了追求速度和安全,犧牲了部份內存,因此在發送TCP包的時候,不管應用層數據多大,sk_buff最小也有272的字節.其實對於socket應用層程序來講,另一本書《UNIX Network Programming Volume 1》意義更大一點.2003年的時候,這本書出了最新的第3版本,不過主要仍是修訂第2版本。其中第6章《I/O Multiplexing》是最重要的。Stevens給出了網絡IO的基本模型。在這裏最重要的莫過於select模型和Asynchronous I/O模型.從理論上說,AIO(異步I/O)彷佛是最高效的,你的IO操做能夠當即返回,而後等待os告訴你IO操做完成。可是一直以來,如何實現就沒有一個完美的方案。最著名的windows完成端口實現的AIO,實際上也是內部用線程池實現的罷了,最後的結果是IO有個線程池,你應用也須要一個線程池...... 不少文檔其實已經指出了這帶來的線程context-switch帶來的代價。在linux 平臺上,關於網絡AIO一直是改動最多的地方,2.4的年代就有不少AIO內核patch,最著名的應該算是SGI那個。可是一直到2.6內核發佈,網絡模塊的AIO一直沒有進入穩定內核版本(大部分都是使用用戶線程模擬方法,在使用了NPTL的linux上面其實和windows的完成端口基本上差很少了)。2.6內核所支持的AIO特指磁盤的AIO---支持io_submit(),io_getevents()以及對Direct IO的支持(就是繞過VFS系統buffer直接寫硬盤,對於流服務器在內存平穩性上有至關幫助)。因此,剩下的select模型基本上就是咱們在linux上面的惟一選擇,其實,若是加上no-block socket的配置,能夠完成一個"僞"AIO的實現,只不過推進力在於你而不是os而已。不過傳統的select/poll函數有着一些沒法忍受的缺點,因此改進一直是2.4-2.5開發版本內核的任務,包括/dev/poll,realtime signal等等。最終,Davide Libenzi開發的epoll進入2.6內核成爲正式的解決方案ios
2. selected 缺陷編程
首先,在Linux內核中,select所用到的FD_SET是有限的,即內核中有個參數__FD_SETSIZE定義了每一個FD_SET的句柄個數,在我用的2.6.15-25-386內核中,該值是1024,搜索內核源代碼獲得:
include/linux/posix_types.h:
#define __FD_SETSIZE 1024
也就是說,若是想要同時檢測1025個句柄的可讀狀態是不可能用select實現的。或者同時檢測1025個句柄的可寫狀態也是不可能的。其次,內核中實現 select是用輪詢方法,即每次檢測都會遍歷全部FD_SET中的句柄,顯然,select函數執行時間與FD_SET中的句柄個數有一個比例關係,即 select要檢測的句柄數越多就會越費時。固然,在前文中我並無說起poll方法,事實上用select的朋友必定也試過poll,我我的以爲 select和poll大同小異,我的偏好於用select而已。windows
3. epoll的優勢數組
(1) 支持一個進程打開大數目的socket描述符(FD)安全
select 最不能忍受的是一個進程所打開的FD是有必定限制的,由FD_SETSIZE設置,默認值是2048。對於那些須要支持的上萬鏈接數目的IM服務器來講顯 然太少了。這時候你一是能夠選擇修改這個宏而後從新編譯內核,不過資料也同時指出這樣會帶來網絡效率的降低,二是能夠選擇多進程的解決方案(傳統的 Apache方案),不過雖然linux上面建立進程的代價比較小,但仍舊是不可忽視的,加上進程間數據同步遠比不上線程間同步的高效,因此也不是一種完 美的方案。不過 epoll則沒有這個限制,它所支持的FD上限是最大能夠打開文件的數目,這個數字通常遠大於2048,舉個例子,在1GB內存的機器上大約是10萬左 右,具體數目能夠cat /proc/sys/fs/file-max察看,通常來講這個數目和系統內存關係很大。
(2) IO 效率不隨FD數目增長而線性降低
傳統的select/poll另外一個致命弱點就是當你擁有一個很大的socket集合,不過因爲網絡延時,任一時間只有部分的socket是"活躍"的, 可是select/poll每次調用都會線性掃描所有的集合,致使效率呈現線性降低。可是epoll不存在這個問題,它只會對"活躍"的socket進行 操做---這是由於在內核實現中epoll是根據每一個fd上面的callback函數實現的。那麼,只有"活躍"的socket纔會主動的去調用 callback函數,其餘idle狀態socket則不會,在這點上,epoll實現了一個"僞"AIO,由於這時候推進力在os內核。在一些 benchmark中,若是全部的socket基本上都是活躍的---好比一個高速LAN環境,epoll並不比select/poll有什麼效率,相反,若是過多使用epoll_ctl,效率相比還有稍微的降低。可是一旦使用idle connections模擬WAN環境,epoll的效率就遠在select/poll之上了。
(3)使用mmap加速內核 與用戶空間的消息傳遞。
這點實際上涉及到epoll的具體實現了。不管是select,poll仍是epoll都須要內核把FD消息通知給用戶空間,如何避免沒必要要的內存拷貝就 很重要,在這點上,epoll是經過內核與用戶空間mmap同一塊內存實現的。而若是你想我同樣從2.5內核就關注epoll的話,必定不會忘記手工 mmap這一步的。
(4)內核微調
這一點其實不算epoll的優勢了,而是整個linux平臺的優勢。也許你能夠懷疑 linux平臺,可是你沒法迴避linux平臺賦予你微調內核的能力。好比,內核TCP/IP協議棧使用內存池管理sk_buff結構,那麼能夠在運行時期動態調整這個內存pool(skb_head_pool)的大小--- 經過echo XXXX>/proc/sys/net/core/hot_list_length完成。再好比listen函數的第2個參數(TCP完成3次握手 的數據包隊列長度),也能夠根據你平臺內存大小動態調整。更甚至在一個數據包面數目巨大但同時每一個數據包自己大小卻很小的特殊系統上嘗試最新的NAPI網卡驅動架構。服務器
4. epoll的工做模式網絡
使人高興的是,2.6內核的epoll比其2.5開發版本的/dev/epoll簡潔了許多,因此,大部分狀況下,強大的東西每每是簡單的。惟一有點麻煩 是epoll有2種工做方式:LT和ET。
LT(level triggered)是缺省的工做方式:而且同時支持block和no-block socket.在這種作法中,內核告訴你一個文件描述符是否就緒了,而後你能夠對這個就緒的fd進行IO操做。若是你不做任何操做,內核仍是會繼續通知你的,因此,這種模式編程出錯誤可能性要小一點。傳統的select/poll都是這種模型的表明.
ET (edge-triggered)是高速工做方式:只支持no-block socket。在這種模式下,當描述符從未就緒變爲就緒時,內核經過epoll告訴你。而後它會假設你知道文件描述符已經就緒,而且不會再爲那個文件描述符發送更多的就緒通知,直到你作了某些操做致使那個文件描述符再也不爲就緒狀態了(好比,你在發送,接收或者接收請求,或者發送接收的數據少於必定量時致使 了一個EWOULDBLOCK錯誤)。可是請注意,若是一直不對這個fd做IO操做(從而致使它再次變成未就緒),內核不會發送更多的通知(only once)。架構
epoll只有epoll_create,epoll_ctl,epoll_wait 3個系統調用,具體用法請參考http://www.xmailserver.org/linux-patches/nio-improve.html ,在http://www.kegel.com/rn/也有一個完整的例子,你們一看就知道如何使用了Leader/follower模式線程 pool實現,以及和epoll的配合。
5. epoll的使用方法
epoll的接口很是簡單,一共就三個函數:
(1) int epoll_create(int size);
建立一個epoll的句柄,size用來告訴內核這個監聽的數目一共有多大。這個參數不一樣於select()中的第一個參數,給出最大監聽的fd+1的值。須要注意的是,當建立好epoll句柄後,它就是會佔用一個fd值,在linux下若是查看/proc/進程id/fd/,是可以看到這個fd的,因此在使用完epoll後,必須調用close()關閉,不然可能致使fd被耗盡。
(2) int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
epoll的事件註冊函數,它不一樣與select()是在監聽事件時(epoll使用epoll_wait監聽)告訴內核要監聽什麼類型的事件,而是在這裏先註冊要監聽的事件類型。第一個參數是epoll_create()的返回值,第二個參數表示動做,用三個宏來表示:
EPOLL_CTL_ADD:註冊新的fd到epfd中;
EPOLL_CTL_MOD:修改已經註冊的fd的監聽事件;
EPOLL_CTL_DEL:從epfd中刪除一個fd;
第三個參數是須要監聽的fd,第四個參數是告訴內核須要監聽什麼事,struct epoll_event結構以下:
typedef union epoll_data {
void *ptr;
int fd;
__uint32_t u32;
__uint64_t u64;
} epoll_data_t;
struct epoll_event {
__uint32_t events; /* Epoll events */
epoll_data_t data; /* User data variable */
};
events能夠是如下幾個宏的集合:
EPOLLIN :表示對應的文件描述符能夠讀(包括對端SOCKET正常關閉);
EPOLLOUT:表示對應的文件描述符能夠寫;
EPOLLPRI:表示對應的文件描述符有緊急的數據可讀(這裏應該表示有帶外數據到來);
EPOLLERR:表示對應的文件描述符發生錯誤;
EPOLLHUP:表示對應的文件描述符被掛斷;
EPOLLET: 將EPOLL設爲邊緣觸發(Edge Triggered)模式,這是相對於水平觸發(Level Triggered)來講的。
EPOLLONESHOT:只監聽一次事件,當監聽完此次事件以後,若是還須要繼續監聽這個socket的話,須要再次把這個socket加入到EPOLL隊列裏
(3) int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);
等待事件的產生,相似於select()調用。參數events用來從內核獲得事件的集合,maxevents告以內核這個events有多大,這個 maxevents的值不能大於建立epoll_create()時的size,參數timeout是超時時間(毫秒,0會當即返回,-1是永久阻塞)。該函數返回須要處理的事件數目,如返回0表示已超時。
6. 應用實例
服務端
#include <iostream>
#include <sys/socket.h>
#include <sys/epoll.h>
#include <netinet/in.h>
#include <arpa/inet.h>
#include <fcntl.h>
#include <unistd.h>
#include <stdio.h>
#include <errno.h>
using namespace std;
#define MAXLINE 5
#define OPEN_MAX 100
#define LISTENQ 20
#define SERV_PORT 5000
#define INFTIM 1000
void setnonblocking(int sock)//將套接字設置爲非阻塞
{
int opts;
opts=fcntl(sock,F_GETFL);
if(opts<0)
{
perror("fcntl(sock,GETFL)");
exit(1);
}
opts = opts|O_NONBLOCK;
if(fcntl(sock,F_SETFL,opts)<0)
{
perror("fcntl(sock,SETFL,opts)");
exit(1);
}
}
int main(int argc, char* argv[])
{
int i, maxi, listenfd, connfd, sockfd,epfd,nfds, portnumber;
ssize_t n;
char line[MAXLINE];
socklen_t clilen;
if ( 2 == argc )
{
if( (portnumber = atoi(argv[1])) < 0 )
{
fprintf(stderr,"Usage:%s portnumber/a/n",argv[0]);
return 1;
}
}
else
{
fprintf(stderr,"Usage:%s portnumber/a/n",argv[0]);
return 1;
}
struct epoll_event ev,events[20]; //聲明epoll_event結構體的變量,ev用於註冊事件,數組用於回傳要處理的事件
epfd=epoll_create(256); //生成用於處理accept的epoll專用的文件描述符
struct sockaddr_in clientaddr;
struct sockaddr_in serveraddr;
listenfd = socket(AF_INET, SOCK_STREAM, 0);
setnonblocking(listenfd); //把socket設置爲非阻塞方式
ev.data.fd=listenfd; //設置與要處理的事件相關的文件描述符
ev.events=EPOLLIN|EPOLLET; //設置要處理的事件類型
epoll_ctl(epfd,EPOLL_CTL_ADD,listenfd,&ev); //註冊epoll事件 bzero(&serveraddr, sizeof(serveraddr)); serveraddr.sin_family = AF_INET; char *local_addr="127.0.0.1"; inet_aton(local_addr,&(serveraddr.sin_addr)); serveraddr.sin_port=htons(portnumber); bind(listenfd,(sockaddr *)&serveraddr, sizeof(serveraddr)); listen(listenfd, LISTENQ); maxi = 0; for ( ; ; ) { nfds=epoll_wait(epfd,events,20,500); //等待epoll事件的發生 for(i=0;i<nfds;++i) //處理所發生的全部事件 { if(events[i].data.fd==listenfd)//若是新監測到一個SOCKET用戶鏈接到了綁定的SOCKET端口,創建新的鏈接。 { connfd = accept(listenfd,(sockaddr *)&clientaddr, &clilen); if(connfd<0){ perror("connfd<0"); exit(1); } char *str = inet_ntoa(clientaddr.sin_addr); cout << "accapt a connection from " << str << endl; ev.data.fd=connfd; //設置用於讀操做的文件描述符 ev.events=EPOLLIN|EPOLLET; //設置用於注測的讀操做事件 epoll_ctl(epfd,EPOLL_CTL_ADD,connfd,&ev); //註冊ev } else if(events[i].events&EPOLLIN)//若是是已經鏈接的用戶,而且收到數據,那麼進行讀入。 { cout << "EPOLLIN" << endl; if ( (sockfd = events[i].data.fd) < 0) continue; if ( (n = read(sockfd, line, MAXLINE)) < 0) { if (errno == ECONNRESET) { close(sockfd); events[i].data.fd = -1; } else std::cout<<"readline error"<<std::endl; } else if (n == 0) { close(sockfd); events[i].data.fd = -1; } line[n] = '/0'; cout << "read " << line << endl; ev.data.fd=sockfd; //設置用於寫操做的文件描述符 ev.events=EPOLLOUT|EPOLLET; //設置用於注測的寫操做事件 epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev); //修改sockfd上要處理的事件爲EPOLLOUT } else if(events[i].events&EPOLLOUT) // 若是有數據發送 { sockfd = events[i].data.fd; write(sockfd, line, n); ev.data.fd=sockfd; //設置用於讀操做的文件描述符 ev.events=EPOLLIN|EPOLLET; //設置用於注測的讀操做事件 epoll_ctl(epfd,EPOLL_CTL_MOD,sockfd,&ev); //修改sockfd上要處理的事件爲EPOLIN } } } return 0;}