Linux系统学习笔记：文件I/O

来源：互联网发布：淘宝美工是做什么工作编辑：程序博客网时间：2024/05/17 03:32

Linux支持C语言中的标准I/O函数，同时它还提供了一套SUS标准的I/O库函数。和标准I/O不同，UNIX的I/O函数是不带缓冲的，即每个读写都调用内核中的一个系统调用。本篇总结UNIX的I/O并和标准I/O进行对比。

Contents

文件描述符
UNIX标准I/O函数
文件共享
- 原子操作
- dup函数
文件延迟写
fcntl函数
ioctl函数
标准I/O库

文件描述符

内核通过文件描述符引用打开的文件，它是一个非负整数。按惯例，shell中使用0与进程的标准输入关联，1与标准输出关联，2与标准错误输出关联。依照POSIX，这些幻数应替换为符号常量 STDIN_FILENO 、STDOUT_FILENO 、 STDERR_FILENO ，定义在 <unistd.h> 中。

Linux中打开文件 /dev/fd/n 等价于复制描述符n，还有 /dev/stdin 、 /dev/stdout 、 /dev/stderr 分别等价于 /dev/fd/0 、 /dev/fd/1 、 /dev/fd/2 。

UNIX标准I/O函数

UNIX标准的一组I/O函数主要包括 open 、 creat 、 close 、 lseek 、 read 、 write 。

使用 open 和 creat 打开文件。

#include <sys/types.h>#include <sys/stat.h>#include <fcntl.h>/* 打开或创建文件 * @return      成功返回文件描述符，出错返回-1 */int open(const char *pathname, int flags);int open(const char *pathname, int flags, mode_t mode);/* 创建文件 * @return      成功返回为只写打开的文件描述符，出错返回-1 */int creat(const char *pathname, mode_t mode);

参数说明：

pathname

要打开或创建的文件的名字。

flags

函数选项，包括：

O_RDONLY ，只读打开。
O_WRONLY ，只写打开。
O_RDWR ，读写打开。

以上三个选项必须有且只有一个。可选的选项还有：

O_APPEND ，每次写都追加在文件尾。
O_CREAT ，文件不存在时创建文件，需设置 mode 参数。
O_EXCL ，和 O_CREAT 同用，文件已存在则出错，文件不存在则创建文件，使测试和创建成为一个原子操作。
O_TRUNC ，文件存在且为写打开时，长度截短为0。
O_NOCTTY ，对于终端设备，不将该设备分配为此进程的控制终端。
O_NONBLOCK ，对于FIFO、块特殊文件、字符特殊文件，设为非阻塞模式。

还有三个同步相关的选项：

O_SYNC ， write 等待物理I/O操作完成，包括文件属性的更新。
O_DSYNC ， write 等待物理I/O操作完成，若写不影响读取（如文件大小没变化），不等待文件属性的更新。
O_RSYNC ， O_SYNC 的同义词。

open 返回的文件描述符一定为最小可用描述符，有时用这一特性来在标准输入/输出/错误输出上打开文件。

creat 是一个历史遗留函数，用于以前没有 O_CREAT 选项的情况，它等价于：

open(pathname, O_WRONLY|O_CREAT|O_TRUNC, mode);

使用 close 关闭文件。

#include <unistd.h>/* 关闭打开的文件 * @return      成功返回0，出错返回-1 */int close(int fd);

关闭文件时会释放该进程加在文件上的所有记录锁。进程终止时，内核会自动关闭它打开的文件。

打开的文件有一个相关联的当前文件偏移量，通常为非负整数，表示从文件开始的字节数。读/写操作从当前文件偏移量处开始，使偏移量增加读写的字节数。默认打开文件偏移量为0，以 O_APPEND 打开偏移量为文件的字节数。可以用 lseek 设置文件的偏移量。

#include <sys/types.h>#include <unistd.h>/* 设置文件的偏移量，设为whence指定的位置加offset * @return      成功返回新的文件偏移量，出错返回-1 */off_t lseek(int fd, off_t offset, int whence);

参数说明：

offset

要增加的偏移量。

whence

SEEK_SET ，相对文件开始处。
SEEK_CUR ，相对文件当前位置。
SEEK_END ，相对文件结尾处。

lseek 并不引起I/O操作，偏移量记录在内核中。

普通文件的偏移量必须是非负整数。偏移量可以大于文件的长度，这样之后的写会形成一个空洞，空洞不占存储，其中的字节被读为0。可以写一个这样的文件，用 od -c 命令验证一下，还可用 ls -ls 命令查看磁盘块占用情况。

用 read 函数读取文件的数据。

#include <unistd.h>/* 从打开的文件读数据，从当前偏移量开始，并将偏移量增加实际读取字节数 * @return      成功返回读到的字节数，已到文件尾返回0，出错返回-1 */ssize_t read(int fd, void *buf, size_t count);

受文件大小、网络缓冲区、管道、FIFO的实际字节数的限制，实际读到的数据可能少于要读的字节数，信号中断也会造成这种情况。终端设备通常一次最多读一行，磁带等设备一次最多读一个记录。

用 write 函数向文件写入数据。

#include <unistd.h>/* 向打开的文件写数据，从当前偏移量开始，并将偏移量增加实际写入字节数 * @return      成功返回写入的字节数，出错返回-1 */ssize_t write(int fd, const void *buf, size_t count);

若文件打开时指定了 O_APPEND 选项，则写之前将偏移量设置到文件结尾处。

例 - cat1 ：

#include <stdlib.h>#include <unistd.h>#include "error.h"#define BUFFSIZE    4096int main(void){    int     n;    char    buf[BUFFSIZE];    while ((n = read(STDIN_FILENO, buf, BUFFSIZE)) > 0)        if (write(STDOUT_FILENO, buf, n) != n)            err_sys("write error");    if (n < 0)        err_sys("read error");    exit(0);}

文件共享

UNIX支持不同进程共享打开的文件。内核使用三种数据结构表示打开的文件：

进程在进程表中都有一个记录项，包含一张打开文件的描述符表。每个描述符占一项，包含描述符标志和指向一个文件表项的指针。
内核维持一张所有打开文件的文件表，每个文件表项包含文件状态标志、当前文件偏移量、指向文件v节点表项的指针。
每个打开文件有一个v节点表，每个v节点包含文件类型、操作函数指针和文件的i节点等。

Linux将v节点和i节点实现为独立于文件系统的i节点和依赖文件系统的i节点。

不同进程共享文件时，每个进程都有一个该文件的文件表项，指向同一个v节点表。多个文件描述符也可能指向同一个文件表项，如使用 dup 函数和 fork 后的父子进程。

/media/note/2012/04/20/linux-io/fig1.png

两个进程打开同一个文件

原子操作

原子操作指由多步组成的操作，执行时要么全部执行，要么一步也不执行。

多个进程共享同一个文件，可能造成进程对文件的连续的操作被打乱，这就需要使操作成为原子操作。如O_APPEND 将到尾端和写入数据组成原子操作，还有 O_CREAT 和 O_EXCL 将检查文件是否存在和创建文件组成原子操作。

pread 和 pwrite 将定位和读/写组成原子操作。

#include <unistd.h>/* 定位并读取数据 * @return      成功返回读到的字节数，已到文件尾返回0，出错返回-1 */ssize_t pread(int fd, void *buf, size_t count, off_t offset);/* 定位并写入数据 * @return      成功返回写入的字节数，出错返回-1 */ssize_t pwrite(int fd, const void *buf, size_t count, off_t offset);

dup函数

dup 函数用来复制现有的文件描述符。

#include <unistd.h>/* 复制文件描述符，返回的新描述符为当前可用的最小值 * @return      成功返回新文件描述符，出错返回-1 */int dup(int oldfd);/* 复制文件描述符，新描述符用newfd指定，若它已经打开，则先将其关闭， * 若它等于oldfd，则不关闭，返回该值 * @return      成功返回新文件描述符，出错返回-1 */int dup2(int oldfd, int newfd);

新文件描述符和原描述符共享同一个文件表项。

也可用 fcntl 复制描述符， dup 函数等价于：

fcntl(oldfd, F_DUPFD, 0);

文件延迟写

虚拟存储器总是采用写回策略，因此数据并不马上写入磁盘，称为延迟写。延迟写减少了磁盘读写次数，提高了性能，但是在系统发生故障时可能造成新数据丢失。

sync 等函数可以刷新块缓冲区，将数据写入磁盘。

#include <unistd.h>/* 将所有修改过的块缓冲区排入写队列，不等待写磁盘结束 */void sync(void);/* 对指定文件刷新块缓冲区，等待写磁盘结束，更新文件属性 * @return      成功返回0，出错返回-1 */int fsync(int fd);/* 对指定文件刷新块缓冲区，等待写磁盘结束，不更新文件属性 * @return      成功返回0，出错返回-1 */int fdatasync(int fd);

系统的 update 守护进程会周期调用 sync 函数。

fcntl函数

fcntl 可以改变已打开文件的性质。

#include <unistd.h>#include <fcntl.h>/* 改变已打开文件的性质 * @return      成功依赖于cmd，出错返回-1 */int fcntl(int fd, int cmd, ... /* arg */ );

参数说明：

cmd

根据 cmd 值的不同，有以下5种功能：

F_DUPFD ，复制一个现有的描述符。新描述符为大于等于 arg 的最小可用值。
F_GETFD 、 F_SETFD ，获取/设置文件描述符标记。文件描述符标志只有 FD_CLOEXEC ，但一般使用0或1，分别代表 exec 时不关闭或关闭，0为默认值。
F_GETFL 、 F_SETFL ，获取/设置文件状态标志。可获取的文件状态标志见 open 函数的 flags可取值，可设置的文件状态标志不包括访问模式位和创建模式位。
F_GETOWN 、 F_SETOWN ，获取/设置异步I/O所有权，即接收 SIGIO 和 SIGURG 信号的进程ID或进程组ID， arg 为正为进程ID， arg 为负为等于其绝对值的进程组ID。
F_GETLK 、 F_SETLK 、 F_SETLKW ，获取/设置记录锁。

例：

#include <stdio.h>#include <stdlib.h>#include <fcntl.h>#include "error.h"int main(int argc, char *argv[]){    int     val;    if (argc != 2)        err_quit("usage: a.out <descriptor#>");    if ((val = fcntl(atoi(argv[1]), F_GETFL, 0)) < 0)        err_sys("fcntl error for fd %d", atoi(argv[1]));    switch (val & O_ACCMODE) {    case O_RDONLY:        printf("read only");        break;    case O_WRONLY:        printf("write only");        break;    case O_RDWR:        printf("read write");        break;    default:        err_dump("unknown access mode");    }    if (val & O_APPEND)        printf(", append");    if (val & O_NONBLOCK)        printf(", nonblocking");    if (val & O_SYNC)        printf(", synchronous writes");    putchar('\n');    exit(0);}

ioctl函数

ioctl 函数是个杂物箱，用来处理剩下的I/O操作，常用在终端I/O操作上。

#include <sys/ioctl.h>/* 处理剩余的各种I/O操作 * @return      出错返回-1 */int ioctl(int d, int request, ...);

标准I/O库

和UNIX的I/O函数相比，标准I/O函数移植性更好，同时它还处理了缓冲区分配等细节，更便于使用。在C语言篇已经列出了标准I/O库函数，这里只和UNIX的I/O函数进行比较。

标准I/O中，文件打开为流，使用指向 FILE 对象的文件指针来引用流。对标准输入、标准输出、标准错误输出预定义了 stdin 、 stdout 、 stderr 文件指针。

标准I/O库提供了自动缓冲管理，有三种类型：

全缓冲。填满缓冲区后才进行实际I/O操作，通常对磁盘上的文件。
行缓冲。在输入和输出中遇到换行符时执行I/O操作，通常对终端。缓冲区满时也执行I/O操作。
无缓冲。标准I/O库不进行缓冲存储，通常对标准错误输出。

可以用 setbuf 或 setvbuf 更改缓冲类型，用 fflush 刷新流，数据被传送到内核。

可以用 fopen 、 freopen 打开流，POSIX.1还增加了 fdopen ，从现有文件描述符打开流。 fclose 关闭打开的流。

getc 、 fgetc 、 getchar 读取单个字符， ungetc 送回单个字符。 putc 、 fputc 、 putchar 写入单个字符。 fgets 、 gets 提供读取一行的功能， fputs 、 puts 提供写入一行的功能，注意 gets 不推荐使用。

ferror 和 feof 用于判断出错还是到达文件结尾， clearerr 清除出错标志和文件结束标志。

fread 和 fwrite 用于二进制读写，比如读写数组和结构。

流定位可以使用 ftell 和 fseek 、 rewind 。SUS标准引入了 ftello 和 fseeko ，区别是用 off_t 代替了long 类型。C标准中还有 fgetpos 和 fsetpos ，它们用 fpos_t 类型的对象保存文件位置。

标准I/O库还提供了格式化I/O函数，包括 printf 、 vprintf 、 scanf 、 vscanf 四个函数族14个函数。

可以用 tmpnam 和 tmpfile 创建临时文件，SUS标准分别对应增加了 tempnam 和 mkstemp 。

最后，可以用 fileno 通过流获得描述符，它也是POSIX.1的扩展。

标准I/O函数提供了更多丰富的功能。由于在内核和用户程序缓冲区之间增加了标准I/O缓冲，需要复制两次数据，因此它们比对应的UNIX的I/O函数执行要慢，但并不慢很多。

例 - cat2 ：

#include <stdio.h>#include <stdlib.h>#include "error.h"int main(void){    char    buf[MAXLINE];    while (fgets(buf, MAXLINE, stdin) != NULL)        if (fputs(buf, stdout) == EOF)            err_sys("output error");    if (ferror(stdin))        err_sys("input error");    exit(0);}

链接: http://www.yeolar.com/note/2012/04/20/linux-io/