I/O复用之epoll简介

来源:互联网 发布:倩女幽魂手游 mac登陆 编辑:程序博客网 时间:2024/05/18 02:25

epoll简介

为什么要学习epoll,在unp中没有关于使用epoll I/O复用的介绍,而最近在学习的nginx多次提到使用epoll能够提高处理性能,以应对服务器高并发,因此通过借助网上博客和linux man page开始学习epoll。

1.select、poll和epoll

由I/O复用select和poll,I/O复用是一种机制,一个进程可以监视多个描述符,当描述符就绪(可读或者可写),则调用返回进入相关代码块进行处理。

简单回顾一下select和poll的I/O复用:

select函数

int select (int n, fd_set *readfds, fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);

select 函数监视的文件描述符分3类,分别是writefdsreadfds、和exceptfds。调用后select函数会阻塞,直到有描述符就绪(有数据 可读、可写、或者有except),或者超时(timeout指定等待时间,如果立即返回设为null即可),函数返回。当select函数返回后,可以通过遍历fdset,来找到就绪的描述符。

select目前几乎在所有的平台上支持,其良好跨平台支持也是它的一个优点。select的一个缺点在于单个进程能够监视的文件描述符的数量存在最大限制,在Linux上一般为1024,可以通过修改宏定义甚至重新编译内核的方式提升这一限制,但是这样也会造成效率的降低。

poll函数

int poll (struct pollfd *fds, unsigned int nfds, int timeout);

其中struct pollfd结构体定义如下:

struct pollfd {    int fd; /* file descriptor */    short events; /* requested events to watch */    short revents; /* returned events witnessed */};

pollfd结构包含了要监视的event和发生的event,不再使用select“参数-值”传递的方式。同时,pollfd并没有最大数量限制(但是数量过大后性能也是会下降)。 和select函数一样,poll返回后,需要轮询pollfd来获取就绪的描述符。

从上面看,select和poll都需要在返回后,通过遍历文件描述符来获取已经就绪的socket。事实上,同时连接的大量客户端在一时刻可能只有很少的处于就绪状态,因此随着监视的描述符数量的增长,其效率也会线性下降。

epoll函数

epoll是在2.6内核中提出的,是之前的select和poll的增强版本。相对于select和poll来说,epoll更加灵活,没有描述符限制。epoll使用一个文件描述符管理多个描述符,将用户关系的文件描述符的事件存放到内核的一个事件表中,这样在用户空间和内核空间的copy只需一次。


2.epoll函数接口

epoll操作过程需要三个接口,分别如下:

#include <sys/epoll.h>int epoll_create(int size);int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);

int epoll_create(int size);
创建一个epoll的句柄,size用来告诉内核这个监听的数目一共有多大。这个参数不同于select()中的第一个参数,给出最大监听的fd+1的值,参数size并不是限制了epoll所能监听的描述符最大个数,只是对内核初始分配内部数据结构的一个建议。需要注意的是,当创建好epoll句柄后,它就是会占用一个fd值(epoll_create返回一个描述符),在linux下如果查看/proc/进程id/fd/,是能够看到这个fd的,所以在使用完epoll后,必须调用close()关闭,否则可能导致fd被耗尽。

int epoll_ctl(int epfd, int op, int fd, struct epoll_event *event);
第一个参数是epoll_create的返回值

struct epoll_event {  __uint32_t events;  /* Epoll events */  epoll_data_t data;  /* User data variable */};

events可以是以下几个宏的集合:

EPOLLIN :表示对应的文件描述符可以读(包括对端SOCKET正常关闭);
EPOLLOUT:表示对应的文件描述符可以写;
EPOLLPRI:表示对应的文件描述符有紧急的数据可读(这里应该表示有带外数据到来);
EPOLLERR:表示对应的文件描述符发生错误;
EPOLLHUP:表示对应的文件描述符被挂断;
EPOLLET: 将EPOLL设为边缘触发(Edge Triggered)模式,这是相对于水平触发(Level Triggered)来说的。
EPOLLONESHOT:只监听一次事件,当监听完这次事件之后,如果还需要继续监听这个socket的话,需要再次把这个socket加入到EPOLL队列里

int epoll_wait(int epfd, struct epoll_event * events, int maxevents, int timeout);
等待事件的产生,类似于select()/poll()调用。参数events用来从内核得到事件的集合,maxevents告之内核这个events有多大,这个maxevents的值不能大于创建epoll_create()时的size,参数timeout是超时时间(毫秒,0会立即返回,-1将不确定,也有说法说是永久阻塞)。该函数返回需要处理的事件数目,如返回0表示已超时。


3.epoll工作模式

epoll有两种工作模式ET和LT,默认是LT。
LT:level-triggered 电平触发
ET:edge-triggered 边缘触发

举个例子:

EPOLLIN 事件
内核中的socket接受缓冲区 为空 低电平
内核中的socket接受缓冲区 不为空 高电平

EPOLLOUT事件
内核中的socket发送缓冲区不满 高电平
内核中的socket发送缓冲区满 低电平

LT 电平触发
高电平时触发

ET 边沿触发
低电平—>>高电平 触发
高电平—>>低电平 触发

也就是说,边缘触发是只会在状态改变时触发一次,而电平触发则有可能多次触发。

在网上看到一道腾讯的面试题:

使用Linux epoll模型,水平触发模式(Level-Triggered);当socket可写时,会不停的触发socket可写的事件,如何处理?

对于服务端来说,socket发送缓冲区一般情况是处于非满的状态,如果我们监听socket fd的EPOLLOUT则会不停触发。有下述几种方案:
1)是使用ET模式+非阻塞write

int nwrite, data_size = strlen(buf);n = data_size;while (n > 0) {//由于只有一次触发,保证数据全部发送    nwrite = write(fd, buf + data_size - n, n);    if (nwrite < n) {        if (nwrite == -1 && errno != EAGAIN) {            perror("write error");        }        break;    }    n -= nwrite;}

2)当需要向socket写数据时,将该socket加入到epoll模型(epoll_ctl);等待可写事件。接收到socket可写事件后,调用write()或send()发送数据。。。 当数据全部写完后, 将socket描述符移出epoll模型。
比如说,对于一个echo服务器来说,当connfd可读时,读取客户端的数据后,直接修改connfd的监听事件为EPOLLOUT,这样,直接触发可写事件,回射数据。

这种方式的缺点是: 即使发送很少的数据,也要将socket加入、移出epoll模型。有一定的操作代价。

3)向socket写数据时,不将socket加入到epoll模型;而是直接调用send()发送;只有当或send()返回错误码EAGAIN(系统缓存满),才将socket加入到epoll模型,等待可写事件后,再发送数据。全部数据发送完毕,再移出epoll模型。
这种方案的优点: 当用户数据比较少时,不需要epool的事件处理。

在高压力的情况下,性能怎么样呢?
对一次性直接写成功、失败的次数进行统计。如果成功次数远大于失败的次数, 说明性能良好。(如果失败次数远大于成功的次数,则关闭这种直接写的操作,改用第一种方案。同时在日志里记录警告)在我自己的应用系统中,实验结果数据证明该方案的性能良好。
事实上,网络数据可分为两种到达/发送情况:
一是分散的数据包, 例如每间隔40ms左右,发送/接收3-5个 MTU(或更小,这样就没超过默认的8K系统缓存)。
二是连续的数据包, 例如每间隔1s左右,连续发送/接收 20个 MTU(或更多)。

4)在epoll_ctl()使用EPOLLONESHOT标志,当事件触发以后,socket会被禁止再次触发。需要再次调用epoll_ctl(EPOLL_CTL_MOD),才会接收下一次事件。这种方式可以禁止socket可写事件,应该也会同时禁止可读事件。会带来不便,同时并没有性能优势,因为epoll_ctl()有一定的操作代价。


4.epoll编程

epoll实现简单的并发回射服务/客户程序:

//server.c#include <stdio.h>#include <stdlib.h>#include <string.h>#include <errno.h>#include <netinet/in.h>#include <sys/socket.h>#include <arpa/inet.h>#include <sys/epoll.h>#include <unistd.h>#include <sys/types.h>#define IPADDRESS   "127.0.0.1"#define PORT        8787#define MAXSIZE     1024#define LISTENQ     5#define FDSIZE      1000#define EPOLLEVENTS 100static int socket_bind(const char* ip,int port);static void do_epoll(int listenfd);static voidhandle_events(int epollfd,struct epoll_event *events,int num,int listenfd,char *buf);static void handle_accpet(int epollfd,int listenfd);static void do_read(int epollfd,int fd,char *buf);static void do_write(int epollfd,int fd,char *buf);static void add_event(int epollfd,int fd,int state);static void modify_event(int epollfd,int fd,int state);static void delete_event(int epollfd,int fd,int state);int main(int argc,char *argv[]){    int  listenfd;    listenfd = socket_bind(IPADDRESS,PORT);    listen(listenfd,LISTENQ); //listen    do_epoll(listenfd);    return 0;}static int socket_bind(const char* ip,int port){    int  listenfd;    struct sockaddr_in servaddr;    //socket    listenfd = socket(AF_INET,SOCK_STREAM,0);    if (listenfd == -1)    {        perror("socket error:");        exit(1);    }    bzero(&servaddr,sizeof(servaddr));    servaddr.sin_family = AF_INET;    inet_pton(AF_INET,ip,&servaddr.sin_addr);    servaddr.sin_port = htons(port);    //bind    if (bind(listenfd,(struct sockaddr*)&servaddr,sizeof(servaddr)) == -1)    {        perror("bind error: ");        exit(1);    }    return listenfd;}static void do_epoll(int listenfd){    int epollfd;    struct epoll_event events[EPOLLEVENTS];    int ret;    char buf[MAXSIZE];    memset(buf,0,MAXSIZE);    //epoll create    epollfd = epoll_create(FDSIZE);    add_event(epollfd,listenfd,EPOLLIN);    for ( ; ; )    {    //epoll_wait        ret = epoll_wait(epollfd,events,EPOLLEVENTS,-1);    //ret nums of fds        handle_events(epollfd,events,ret,listenfd,buf);    }    close(epollfd);}static voidhandle_events(int epollfd,struct epoll_event *events,int num,int listenfd,char *buf){    int i;    int fd;    for (i = 0;i < num;i++)    {        fd = events[i].data.fd;        if ((fd == listenfd) &&(events[i].events & EPOLLIN))            handle_accpet(epollfd,listenfd);        else if (events[i].events & EPOLLIN)            do_read(epollfd,fd,buf);        else if (events[i].events & EPOLLOUT)            do_write(epollfd,fd,buf);    }}static void handle_accpet(int epollfd,int listenfd){    int clifd;    struct sockaddr_in cliaddr;    socklen_t  cliaddrlen;    clifd = accept(listenfd,(struct sockaddr*)&cliaddr,&cliaddrlen);    if (clifd == -1)        perror("accpet error:");    else    {        printf("accept a new client: %s:%d\n",inet_ntoa(cliaddr.sin_addr),cliaddr.sin_port);        add_event(epollfd,clifd,EPOLLIN);    }}static void do_read(int epollfd,int fd,char *buf){    int nread;    nread = read(fd,buf,MAXSIZE);    if (nread == -1)    {        perror("read error:");        close(fd);        delete_event(epollfd,fd,EPOLLIN);    }    else if (nread == 0)    {        fprintf(stderr,"client close.\n");        close(fd);        delete_event(epollfd,fd,EPOLLIN);    }    else    {        printf("read message is : %s",buf);        modify_event(epollfd,fd,EPOLLOUT);    }}static void do_write(int epollfd,int fd,char *buf){    int nwrite;    nwrite = write(fd,buf,strlen(buf));    if (nwrite == -1)    {        perror("write error:");        close(fd);        delete_event(epollfd,fd,EPOLLOUT);    }    else        modify_event(epollfd,fd,EPOLLIN);    memset(buf,0,MAXSIZE);}static void add_event(int epollfd,int fd,int state){    struct epoll_event ev;    ev.events = state;//EPOLL_IN    ev.data.fd = fd;    epoll_ctl(epollfd,EPOLL_CTL_ADD,fd,&ev);//add fd}static void delete_event(int epollfd,int fd,int state){    struct epoll_event ev;    ev.events = state;    ev.data.fd = fd;    epoll_ctl(epollfd,EPOLL_CTL_DEL,fd,&ev);}static void modify_event(int epollfd,int fd,int state){    struct epoll_event ev;    ev.events = state;    ev.data.fd = fd;    epoll_ctl(epollfd,EPOLL_CTL_MOD,fd,&ev);}
//client.c#include <netinet/in.h>#include <sys/socket.h>#include <stdio.h>#include <string.h>#include <stdlib.h>#include <sys/epoll.h>#include <time.h>#include <unistd.h>#include <sys/types.h>#include <arpa/inet.h>#define MAXSIZE     1024#define IPADDRESS   "127.0.0.1"#define SERV_PORT   8787#define FDSIZE        1024#define EPOLLEVENTS 20static void handle_connection(int sockfd);static voidhandle_events(int epollfd,struct epoll_event *events,int num,int sockfd,char *buf);static void do_read(int epollfd,int fd,int sockfd,char *buf);static void do_read(int epollfd,int fd,int sockfd,char *buf);static void do_write(int epollfd,int fd,int sockfd,char *buf);static void add_event(int epollfd,int fd,int state);static void delete_event(int epollfd,int fd,int state);static void modify_event(int epollfd,int fd,int state);int main(int argc,char *argv[]){    int                 sockfd;    struct sockaddr_in  servaddr;    //socket    sockfd = socket(AF_INET,SOCK_STREAM,0);    bzero(&servaddr,sizeof(servaddr));    servaddr.sin_family = AF_INET;    servaddr.sin_port = htons(SERV_PORT);    inet_pton(AF_INET,IPADDRESS,&servaddr.sin_addr);    connect(sockfd,(struct sockaddr*)&servaddr,sizeof(servaddr));    handle_connection(sockfd);    close(sockfd);    return 0;}static void handle_connection(int sockfd){    int epollfd;    struct epoll_event events[EPOLLEVENTS];    char buf[MAXSIZE];    int ret;    epollfd = epoll_create(FDSIZE);    add_event(epollfd,STDIN_FILENO,EPOLLIN);    for ( ; ; )    {        ret = epoll_wait(epollfd,events,EPOLLEVENTS,-1);        handle_events(epollfd,events,ret,sockfd,buf);    }    close(epollfd);}static voidhandle_events(int epollfd,struct epoll_event *events,int num,int sockfd,char *buf){    int fd;    int i;    for (i = 0;i < num;i++)    {        fd = events[i].data.fd;        if (events[i].events & EPOLLIN)            do_read(epollfd,fd,sockfd,buf);        else if (events[i].events & EPOLLOUT)            do_write(epollfd,fd,sockfd,buf);    }}static void do_read(int epollfd,int fd,int sockfd,char *buf){    int nread;    nread = read(fd,buf,MAXSIZE);    if (nread == -1)    {    perror("read error:");    close(fd);    }    else if (nread == 0)    {    fprintf(stderr,"server close.\n");    close(fd);    }    else    {    if (fd == STDIN_FILENO)        add_event(epollfd,sockfd,EPOLLOUT); //sockfd readable    else    {        delete_event(epollfd,sockfd,EPOLLIN);        add_event(epollfd,STDOUT_FILENO,EPOLLOUT);    }    }}static void do_write(int epollfd,int fd,int sockfd,char *buf){    int nwrite;    nwrite = write(fd,buf,strlen(buf));    if (nwrite == -1)    {    perror("write error:");    close(fd);    }    else    {    if (fd == STDOUT_FILENO)        delete_event(epollfd,fd,EPOLLOUT);    else        modify_event(epollfd,fd,EPOLLIN);    }    memset(buf,0,MAXSIZE);}static void add_event(int epollfd,int fd,int state){    struct epoll_event ev;    ev.events = state;    ev.data.fd = fd;    epoll_ctl(epollfd,EPOLL_CTL_ADD,fd,&ev);}static void delete_event(int epollfd,int fd,int state){    struct epoll_event ev;    ev.events = state;    ev.data.fd = fd;    epoll_ctl(epollfd,EPOLL_CTL_DEL,fd,&ev);}static void modify_event(int epollfd,int fd,int state){    struct epoll_event ev;    ev.events = state;    ev.data.fd = fd;    epoll_ctl(epollfd,EPOLL_CTL_MOD,fd,&ev);}

服务端一般过程:
1.socket->bind->listen
2.epoll管理listenfd的EPOLLIN事件
3.客户连接listenfd可读,epoll_wait返回
4.添加connfd的EPOLL_IN事件
5.客户发送数据connfd可读EPOLLIN事件触发。
6.读取客户数据,并修改connfd的EPOLLIN事件为EPOLLOUT事件。
7.发送缓冲不满,EPOLLOUT事件触发,服务端回射数据。

客户端一般过程:
1.socket->connect
2.epoll管理标准输入的EPOLLIN事件。
3.客户键入数据,EPOLLIN事件触发。
4.此时有两种情况,一种是socketfd可读,一种是标准输入fd可读。
5.进行判断,按照流程首先是标准输入fd可读。
6.将标准输入的缓冲区的数据读入进程buf中,添加sockfd EPOLLOUT事件
7.此时socket发送缓冲未满,直接触发EPOLLOUT事件发送数据,并修改sockfd的EPLLOUT到EPOLLIN等待数据回射。
8.服务器数据回射,sockfd可读,EPOLLIN事件触发。
9.回到第4步,sockfd可读,删除监听sockfd,并添加标准输出的可写事件。
10.STDOUT的EPOLLOUT触发,写入数据的标准输出。


5.epoll回射服务器测试

使用nc测试:
这里写图片描述


运行client测试:
这里写图片描述


6.参考

1.https://segmentfault.com/a/1190000003063859
2.http://blog.csdn.net/u010323664/article/details/9246579
3.http://www.cnblogs.com/Anker/p/3263780.html
4.http://www.ccvita.com/515.html
5.http://blog.csdn.net/u013281495/article/details/51706717


1 0