Linux高性能服务器编程——I/O复用

来源：互联网发布：3d游戏编程大师技巧编辑：程序博客网时间：2024/05/17 21:52

IO复用
I/O复用使得程序能同时监听多个文件描述符，通常网络程序在下列情况下需要使用I/O复用技术：

客户端程序要同时处理多个socket

客户端程序要同时处理用户输入和网络连接

TCP服务器要同时处理监听socket和连接socket，这是I/O复用使用最多的场合

服务器要同时处理TCP请求和UDP请求。比如本章将要讨论的会社服务器

服务器要同时监听多个端口，或者处理多种服务。

I/O复用虽然能同时监听多个文件描述符，但它本身是阻塞的。并且当多个文件描述符同时就绪时，如果不采用额外措施，程序就只能按顺序依次处理其中的每一个文件描述符，这使得服务器程序看起来像是串行工作。如果要实现并发，只能使用多进程或多线程等变成手段。

select系统复用

select系统调用的用途是:在一段指定时间内，几件套用户感兴趣的文件描述符上的可读可写和异常等事件。

#include <sys/select.h>

int select(int nfds, fd_set *readfds,fd_set *writefds, fd_set *exceptfds, struct timeval *timeout);

nfds参数指定被监听的文件描述符的总数。通常被设置为select监听的所有文件描述符中的最大值加1，因为文件描述符是从0开始计数的

readfds, writefds和exceptfds参数分别指向可读、可写和异常等事件对应的文件描述符集合。

fd_set结构体仅包含一个整形数组，高数组的每个元素的每一位标记一个文件描述符。

可用如下宏来访问fd_set结构体中的位：

voidFD_CLR(int fd, fd_set *set);

int FD_ISSET(int fd, fd_set *set);

voidFD_SET(int fd, fd_set *set);

void FD_ZERO(fd_set*set);

timeout参数用来设置select函数的超时时间。它是一个timeval指针，timeval结构体定义如下：

struct timeval {

long tv_sec; /* seconds */

long tv_usec; /* microseconds */

};

如果给timeout传递NULL，则select将一直阻塞，直到某个文件描述符就绪。

select成功时返回就绪文件描述符的总数，如果在超时时间内没有任何文件描述符就绪返回0，失败返回-1，并设置errno；如果select在等待期间收到信号，则select立即返回-1，并设置errno为EINTR。

poll系统调用

poll系统调用和select类似，也是在指定时间内伦旭一定数量的文件描述符，以测试其中是否有就绪。poll原型如下：

#include<poll.h>

int poll(structpollfd *fds, nfds_t nfds, int timeout);

1)fds参数是一个pollfd结构类型的数组，它指定所以我们感兴趣的文件描述符上发生的刻度、可写和异常等时间。其结构定义如下：

struct pollfd {

int fd; /* file descriptor */

short events; /* requested events */

short revents; /* returned events */

};

其中fd成员指定文件描述符；events成员告诉poll监听f上的那些时间，它是一系列时间的按位或；revents成员则由内核修改，以通知应用程序fd上实际发生了哪些事件。

2)nfds参数指定被监听事件集合的大小。其类型nfds_t定义如下：

typedef unsignedlong int nfds_t;

timeout参数指定poll的超时时间，单位是毫秒。当timeout为-1时，poll调用将永远阻塞，直到某个事件发生；当为0时，poll调用立即返回。

poll返回值含义与select相同。

epoll系列系统调用

内核事件表

epoll是Linux特有的I/O复用函数。它在实现和使用上与select、poll有很大差异。首先，epoll使用一组函数来完成任务，而不是单个函数。其次，epoll把用户关心的文件描述符上的时间放在内核里的一个时间表中，从而无需向select和poll那样每次调用都要重复传入文件描述符集或事件集。但epoll需要使用一个额外的文件描述符，来唯一标识内核中的这个时间表。这个文件描述符使用如下epoll_create函数创建：

#include <sys/epoll.h>

int epoll_create(int size);

size参数给内核一个提示，告诉它时间表需要多大。该函数返回的文件描述符将作用其他所有epoll系统调用的第一个参数，以指定要访问的内核事件表。

下面的函数用来操作epoll的内核事件表：

#include <sys/epoll.h>

int epoll_ctl(int epfd, int op, int fd,struct epoll_event *event);

fd参数是要操作的文件描述符，op参数则制定操作类型，操作类型有如下3种：

EPOLL_CTL_ADD：往事件表中注册fd上的事件

EPOLL_CTL_MOD: 修改fd上的注册事件

EPOLL_CTL_DEL: 删除fd上的注册事件

event参数指定时间，它是epoll_event结构指针类型。epoll_event的定义如下：

struct epoll_event {

uint32_t events; /* Epoll events */

epoll_data_t data; /* User data variable */

};

其中events成员描述事件类型。data成员用于存储用户数据，其类型epoll_data的定义如下：

typedef union epoll_data {

void *ptr;

int fd;

uint32_t u32;

uint64_t u64;

} epoll_data_t;

epoll_data_t是一个联合体，其中4个成员中使用最多的是fd，它指定事件所丛书的目标文件描述符。

epoll_ctl成功时返回0，失败时返回-1并设置errno。

epoll_wait函数

epoll系列系统调用的主要接口是epoll_wait函数。它在一段超时时间内等待一组文件描述符上的事件，其原型如下：

#include <sys/epoll.h>

int epoll_wait(int epfd, struct epoll_event*events, int maxevents, int timeout);

该函数成功时返回就绪的文件描述符的个数，失败是返回-1，并设置errno。

maxevents参数指定最多监听多少时间，必须大于0.

epoll_wait函数如果检测到事件，就将所有就绪的事件从内核事件表中复制到它的第二个参数events指向的数组中。这个数组只用于输出epoll_wait检测到的就绪时间，而不像select和poll数组那样即用于传入用户注册的时间，有用于输出内核检测到的就绪时间。这就极大的提高了应用程序索引就绪文件描述符的效率。下面的代码体现了这个差别：

/*如何索引poll返回的就绪文件描述符*/

int ret = poll(fds, MAX_EVENT_NUMBER, -1);

/*必须遍历所有注册文件描述符并找到其中的就绪着*/

for(int i=0;i<MAX_EVENT_NUMBER; ++i)

{

if(fds[i].revents & POLLIN)

{

int sockfd = fds[i].fd;

/*处理sockfd*/

}

/*如何索引epoll返回的就绪文件描述符*/

int ret =epoll_wait( epollfd, events, MAX_EVENT_NUMBER, -1);

/*遍历就绪的ret个文件描述符*/

for( int i=0;i<ret; i++)

{

int socketfd = events[i].data.fd;

/*socket肯定就绪，直接处理*/

}

LT和ET模式

epoll对文件描述符的操作有两种模式：LT模式（Levek Trigger,电平触发）和ET模式（E多个Trigger, 边沿触发）。LT模式是默认的工作模式，这种模式下epoll相当于一个效率较高的poll。当往epoll内核事件表中注册一个文件描述符上的EPOLLET事件时，epoll将以ET模式来操作该文件描述符。ET模式是epoll的搞笑工作模式。

对于采用LT工作模式的文件描述符，当epoll_wait检测到其上有时间发生并将此事件通知应用程序后，应用程序可以不立即处理该事件。这样，当应用程序下一次调用epoll_wait时，epoll_wait还会再次向应用程序通告此事件，直到该事件被处理。而对于采用ET工作模式的文件描述符，当epoll_wait检测到其上有时间发生并将此时间通知应用程序后，应用程序必须立即处理该事件，因为后续的epoll_wait调用将不再向用用程序通知这一事件。可见，ET在很大程度上降低了同一个epoll事件被重复触发的次数，因此效率比LT模式高。

文章最后的程序清单1比较了两种模式：

当在客户端telnet传输“abcdefghijklmnopqrstuvwxyz”字符串时，输出如下

ET模式输出：

event trigger once

get 9 bytes of content: abcdefghi

get 9 bytes of content: jklmnopqr

get 9 bytes of content: stuvwxyz

get 1 bytes of content:

LT模式输出：

event trigger once

get 9 bytes of content: abcdefghi

event trigger once

get 9 bytes of content: jklmnopqr

event trigger once

get 9 bytes of content: stuvwxyz

event trigger once

get 1 bytes of content:

可以看到正如我们预期，ET模式下时间只被触发一次，要比LT模式下少很多。

EPOLLONESHOT事件

即使我们使用ET模式，一个socket上的某个事件还是可能被触发多次。这在并发程序中会引起一个问题。比如一个县城在读取完某个socket上的数据后开始处理这些数据，二在数据的处理工程中该socket上又有新数据可读，此时另外一个县城北唤醒来读取这些新的数据。于是就出现了两个线程同时操作一个socket的局面，这当然不是我们期望的。我们期望的是一个socket连接在任一时刻都只被一个线程处理，这一点可以使用spoll的EPOLLONESHOT事件实现。

对于注册了EPOLLONESHOT事件的文件描述符，操作系统最多触发其上注册的一个可读、可写或者异常事件，而且只触发一次，除非我们使用epoll_ctl函数重置该文件描述符上注册的EPOLLONESHOT事件ain.zheyang，当一个线程在处理某个socket时，其他线程是不可能有机会操作该socket的。但反过来思考，注册了EPOLLONESHOT事件的socket一旦被某个线程处理完毕，该线程就应该立即重置这个socket上的EPOLLONESHOT事件，以确保这个socket下一次可读时，其EPOLLIN事件能被触发，进而让其他工作线程有机会处理这个socket。

程序清单2展示了EPOLLONESHOT事件的使用。

三组I/O复用函数的比较

系统调用

select

poll

epoll

事件集合

用户通过3个参数分别传入感兴趣的可读、可写及异常等事件，内核通过对这些参数在线修改来反馈其中的就绪事件。这使得用户每次调用select都要重置这3个参数

统一处理所有事件类型，因此只需要一个事件集参数。用户通过pollfd.events传入感兴趣的事件，内核通过修改pollfd.revents反馈其中就绪的事件

内核通过一个时间表直接管理用户感兴趣的所有事件。因此每次调用epoll_wait时，无需反复传入用户感兴趣的时间。epoll_wait系统调用的参数events仅用来反馈就绪的事件。

应用程序索引就绪文件描述符的时间复杂度

O(N)

O(1)

最大支持文件描述符数

一般有最大值限制

65535

工作模式

支持ET高效模式

内核实现和工作效率

采用轮询方法来检测就绪事件, 算法复杂度为O(N)

采用轮询方式检测就绪事件，算法复杂度为O(N)

采用回调方式来检测就绪事件，算法复杂度为O(1)

聊天程序见程序（poll实现）见清单3

同时处理TCP和UDP服务的回射服务器程序（epoll程序）见清单4

0 0