APUE学习笔记第三章文件I/O

来源:互联网 发布:男士整容知乎 编辑:程序博客网 时间:2024/06/05 19:44

3.1 引言

             大多数UNIX文件I/O只需用到5个函数:open,read,write,lseek 以及close.

本章所说明的函数经常被称之为不带缓存的 I/O(unbuffered I/O,与将在第5章中说明的标准I/O函数相对照)。术语——不带缓存指的是每个readwrite都调用内核中的一个系统调用。这些不带缓存的I/O函数不是ANSI C的组成部分,但是是POSIX.1和XPG3的组成部分。

3.2 文件描述符

对于内核而言,所有打开文件都由文件描述符引用。文件描述符是一个非负整数。当打开一个现存文件或创建一个新文件时,内核向进程返回一个文件描述符。当读、写一个文件时,用open或creat返回的文件描述符标识该文件,将其作为参数传送给read或write。
按照惯例,UNIX shell使文件描述符0与进程的标准输入相结合,文件描述符1与标准输出相结合,文件描述符2与标准出错输出相结合。
文件描述符的范围是0 ~ OPEN_MAX(见表2 - 7 )。早期的UNIX版本采用的上限值是19 (允许每个进程打开20个文件),现在很多系统则将其增加至63。

3.3 open函数

调用open函数可以打开或创建一个文件。
#include <fcntl.h>int open(const char *pathname, int oflag, ... /* mode_t mode */ ) ;                                                                                                      返回值:若成功则返回文件描述符,若出错则返回-1
pathname是要打开或创建的文件的名字。oflag参数可用来说明此函数的多个选择项。用下列一个或多个常数进行或运算构成oflag参数(这些常数定义在<fcntl.h>头文件中):
• O_RDONLY只读打开。
• O_WRONLY 只写打开。
• O_RDWR 读、写打开。
   

在这三个常数中应当只指定一个。下列常数则是可选择的:

• O_APPEND 每次写时都加到文件的尾端。3 . 11节将详细说明此选择项。
• O_CREAT 若此文件不存在则创建它。使用此选择项时,需同时说明第三个参数mode,用其说明该新文件的存取许可权位。( 4 . 5节将说明文件的许可权位,那时就能了解如何说明mode,以及如何用进程的umask值修改它。)
• O_EXCL 如果同时指定了O_CREAT,而文件已经存在,则出错。这可测试一个文件是否存在,如果不存在则创建此文件成为一个原子操作。3 . 11节将较详细地说明原子操作。
• O_TRUNC 如果此文件存在,而且为只读或只写成功打开,则将其长度截短为0。
• O_NOCTTY 如果pathname指的是终端设备,则不将此设备分配作为此进程的控制终端。9.6节将说明控制终端。
• O_NONBLOCK 如果pathname指的是一个FIFO、一个块特殊文件或一个字符特殊文件,则此选择项为此文件的本次打开操作和后续的I / O操作设置非阻塞方式。14.2节将说明此工作方式。

下面三个标志也是可选的。他们是Single UNIX Specificatin(以及POSIX.1)中同步输入和输出选项的一部分。

• O_DSYNC使每次write等到物理I/O操作完成,但是如果写操作并不影响读取刚写入的数据,则不等待文件属性被更新。

• O_RSYNC使每一个以文件描述符作为参数的read操作等待,直至任何对文件同一部分进行的未决写操作都完成。

• O_SYNC 使每次write都等到物理I/O操作完成,包括由write操作引起的文件属性更新所需的I/O, 3.14节将使用此选择项。

由open返回的文件描述符一定是最小的未用描述符数字。这一点被很多应用程序用来在标准输入、标准输出或标准出错输出上打开一个新的文件。例如,一个应用程序可以先关闭标准输出(通常是文件描述符1 ),然后打开另一个文件,事先就能了解到该文件一定会在文件描述符1上打开。在3.12节说明dup2函数时,可以了解到有更好的方法来保证在一个给定的描述符上打开一个文件。


3.4 creat函数


也可用creat函数创建一个新文件。
#include <fcntl.h>int creat(const char *pathname, mode_t mode);   
                                        返回值:若成功则返回为只写打开的文件描述符,若出错则返回-1


注意,此函数等效于:
open(pathname, O_WRONLY | O_CREAT | O_TRUNC, mode);
在早期的UNIX版本中,open的第二个参数只能是0、1或2。没有办法打开一个尚未存在的文件,因此需要另一个系统调用creat以创建新文件。现在,open函数提供了选择项O_CREAT和O_TRUNC,于是也就不再需要creat函数了。


在4.5节中,我们将详细说明文件存取许可权,并说明如何指定mode。creatt的一个不足之处是它以只写方式打开所创建的文件。在提供open的新版本之前,如果要创建一个临时文件,并要先写该文件,然后又读该文件,则必须先调用creat,close然后再调用open。现在则可用下列方式调用open:
open(pathname, O_RDWR | O_CREAT | O_TRUNC, mode);


3.5 close函数


可调用close函数关闭一个打开的文件:
#include<unistd.h>
int close(int filedes);
                       返回值:若成功则返回0,若出错则返回-1


关闭一个文件时还会释放该进程加在该文件上的所有记录锁。14.3节将讨论这点。
当一个进程终止时,内核自动关闭它所有打开的文件。很多程序都利用了这一功能而不显示地用close关闭打开文件。

3.6 lseek函数
每个打开的文件都有一个与其相关联的 “当前文件偏移量” (current file offset)。它通常是一个非负整数,用以度量从文件开始处计算的字节数。通常,读、写操作都从当前文件偏移量处开始,并使偏移量增加所读写的字节数。按系统默认的情况,当打开一个文件时,除非制定O_APPEND选项,否则该偏移量被设置为0.
可以调用lseek显示地为一个打开的文件设置偏移量。
#include  <unistd.h>
off_t lseek(int filedes, off_t offset, int whence);
                          返回值:若成功则返回新的文件偏移量,若出错则返回-1
对参数offset的解释与参数whence的值有关。
若whence是SEEK_SET,则将该文件的偏移量设置为距文件开始处offset个字节。
若whence是SEEK_CUR,则将该文件的偏移量设置为当前值加offset,offset可为正或负。
若whence是SEEK_END,则将该文件的偏移量设置为文件长度加offset,offset可为正或负。
若lseek成功只写,则返回新的文件偏移量,为此可以用下列方式确定打开文件的当前偏移量:
off_tcurrpos;
currpos = lseek(fd, 0, SEEK_CUR);
这种方法也可以用来确定所涉及的文件是否可以设置偏移量。如果文件描述符引用的是一个管道、FIFO或网络套接字,则lseek返回-1,并将errno设置为ESPIPE.

程序清单3-1中的程序用于测试能否对其标准输入设置偏移量。

程序清单3-1 测试能否对标准输入设置偏移量
-----------------------------------------------------------------------------------------------------
#include "apue.h"
int
man(void)
{
if (lseek(STDIN_FILENO, 0, SEEK_CUR) == -1)
printf("cannot seek\n");
else
printf("seek OK\n");
exit(0);
}
---------------------------------------------------------------------------------------------------------
如果用交互方式调用此程序,则可得:
$ ./a.out < /etc/motd
seek OK
$ cat < /etc/motd | ./a.out
cannot seek
$ ./a.out < /var/spool/cron/FIFO
cannot seek

lseek仅将当前的文件偏移量记录在内核中,它并不ing器任何I/O操作。然后,该偏移量用于下一个读或写操作。
文件位移量可以大于文件的当前长度,在这种情况下,对该文件的下一次写将延长该文件,并在文件中构成一个空调,这一点是允许的。位于文件中但没有写过的字节都被读为0。
实例
程序3 - 2用于创建一个具有空洞的文件。
程序3-2 创建一个具有空洞的文件
#include "apue.h"
#include <fcntl.h>


char buf1[] = "abcdefghij";
char buf2[] = "ABCDEFGHIJ";


int
main(void)
{
int fd;


if ((fd = creat("file.hole", FILE_MODE)) < 0)
err_sys("creat error");


if (write(fd, buf1, 10) != 10)
err_sys("buf1 write error");
/* offset now = 10 */


if (lseek(fd, 16384, SEEK_SET) == -1)
err_sys("lseek error");
/* offset now = 16384 */


if (write(fd, buf2, 10) != 10)
err_sys("buf2 write error");
/* offset now = 16394 */


exit(0);
}

运行该程序得到:
$ a . o u t
$ ls -1 file.hole 检查其大小
-rw-r--r-- 1 stevens 50 Jul 31 05:50 file.hole
$ od -c file.hole 观察实际内容
0000000 a b c d e f g h i j \0 \0 \0 \0 \0 \0
0000020 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0
0000040 \0 \0 \0 \0 \0 \0 \0 \0 A B C D E F G H

使用od命令观察该文件的实际内容。命令行中的- c标志表示以字符方式打印文件内容。从中可以看到,文件中间的30个未写字节都被读成为0。每一行开始的一个七位数是以八进制形式表示的字节位移量。本例调用了将在3 . 8节中说明的w r i t e函数。4 . 1 2节将对具有空洞的文件进行更多说明。

因为lseek使用的偏移量off_t类型表示的,所以允许具体实现根据各自特定的平台自行选择大小合适的数据类型。
注意,尽管可以支持64位的文件偏移量,但是是否需能创建一个大于2GB(2的31次方-1个字节)的文件则依赖于底层文件系统的类型。

3.7 read函数

调用read函数从打开文件中读数据。

#include <unistd.h>
ssize_t read(int filedes, void *buf, size_t nbytes);
返回值:若成功则返回读到的字节数,若已到文件结尾则返回0,若出错则返回-1

如read成功,则返回读到的字节数。如已到达文件的尾端,则返回0。
有多种情况可使实际读到的字节数少于要求读字节数:
• 读普通文件时,在读到要求字节数之前已到达了文件尾端。例如,若在到达文件尾端之前还有30个字节,而要求读100个字节,则read返回30,下一次再调用read时,它将返回0 (文件尾端)。
• 当从终端设备读时,通常一次最多读一行(第11章将介绍如何改变这一点)。
• 当从网络读时,网络中的缓冲机构可能造成返回值小于所要求读的字节数。
• 某些面向记录的设备,例如磁带,一次最多返回一个记录。
读操作从文件的当前位移量处开始,在成功返回之前,该位移量增加实际读得的字节数。


3.8  write函数

用write函数向打开文件写数据。

#include <unistd.h>

ssize_t write(int filedes, const void  *buff, size_t  nbytes) ;

返回:若成功为已写的字节数,若出错为- 1

其返回值通常与参数nbytes的值相同,否则表示出错。write出错的一个常见原因是:磁盘已写满,或者超过了对一个给定进程的文件长度限制(见7 . 11节及习题1 0 . 11 )。

对于普通文件,写操作从文件的当前位移量处开始。如果在打开该文件时,指定了

O_APPEND选择项,则在每次写操作之前,将文件位移量设置在文件的当前结尾处。在一次

成功写之后,该文件位移量增加实际写的字节数。

3.9 I/O的效率

程序3 - 3只使用read和write函数来复制一个文件。关于该程序应注意下列各点:

• 它从标准输入读,写至标准输出,这就假定在执行本程序之前,这些标准输入、输出已

由shell安排好。确实,所有常用的UNIX shell都提供一种方法,它在标准输入上打开一个文件

用于读,在标准输出上创建(或重写)一个文件。

• 很多应用程序假定标准输入是文件描述符0,标准输出是文件描述符1。本例中则用两个

在< unistd.h >中定义的名字STDIN_FILENO和STDOUT_FILENO。

• 考虑到进程终止时,UNIX会关闭所有打开文件描述符,所以此程序并不关闭输入和输出

文件。

• 本程序对文本文件和二进制代码文件都能工作,因为对UNIX内核而言,这两种文件并

无区别。

大多数文件系统为改善其性能都采用某种预读(read ahead)技术。

3.10 文件共享

U N I X支持在不同进程间共享打开文件。在介绍d u p函数之间,需要先说明这种共享。为此

先说明内核用于所有I / O的数据结构。

内核使用了三种数据结构,它们之间的关系决定了在文件共享方面一个进程对另一个进程

可能产生的影响。

(1) 每个进程在进程表中都有一个记录项,每个记录项中有一张打开文件描述符表,可将

其视为一个矢量,每个描述符占用一项。与每个文件描述符相关联的是:

(a) 文件描述符标志。

(b) 指向一个文件表项的指针。

(2) 内核为所有打开文件维持一张文件表。每个文件表项包含:

(a) 文件状态标志(读、写、增写、同步、非阻塞等)。

(b) 当前文件位移量。

(c) 指向该文件v节点表项的指针。

(3) 每个打开文件(或设备)都有一个v节点结构。v节点包含了文件类型和对此文件进

行各种操作的函数的指针信息。对于大多数文件, v节点还包含了该文件的i节点(索引节

点)。这些信息是在打开文件时从盘上读入内存的,所以所有关于文件的信息都是快速可供

使用的。例如, i节点包含了文件的所有者、文件长度、文件所在的设备、指向文件在盘上

所使用的实际数据块的指针等等( 4. 1 4节较详细地说明了U N I X文件系统,将更多地介绍i节

点。)


3.11 原子操作

一般而言,原子操作(atomic operation)指的是由多步组成的操作。如果该操作原子地执行,则或者执行完所有步,或者一步也不执行,不可能只执行所有步的一个子集。

3.12 dup和dup2函数

下面两个函数都可用来复制一个现存的文件描述符:
#include <unistd.h>
int dup(int filedes) ;
int dup2(int filedes, int filedes2) ;
两函数的返回:若成功为新的文件描述符,若出错为- 1
由dup返回的新文件描述符一定是当前可用文件描述符中的最小数值。用dup2则可以用filedes2,参数指定新描述符的数值。如果filedes2已经打开,则先将其关闭。如若filedes等于filedes2,则dup2返回filedes2,而不关闭它。


3.13 fcntl函数

fcntl函数可以改变已经打开文件的性质。
#include <sys/types.h>
#include <unistd.h>
#include <fcntl.h>
int fcntl(int filedes, int cmd,... /* int arg * / ) ;
返回:若成功则依赖于cmd(见下),若出错为- 1
在本节的各实例中,第三个参数总是一个整数,与上面所示函数原型中的注释部分相对应。但
是1 2 . 3节说明记录锁时,第三个参数则是指向一个结构的指针。
f c n t l函数有五种功能:
• 复制一个现存的描述符(c m d=F _ D U P F D)。
• 获得/设置文件描述符标记(c m d = F _ G E T F D或F _ S E T F D)。
• 获得/设置文件状态标志(c m d = F _ G E T F L或F _ S E T F L)。
• 获得/设置异步I / O有权(c m d = F _ G E TO W N或F _ S E TO W N)。
• 获得/设置记录锁(c m d = F _ G E T L K , F _ S E T L K或F _ S E T L K W)

3.14 iocntl函数

ioctl 函数是I / O操作的杂物箱。不能用本章中其他函数表示的I / O操作通常都能用iocntl表示。终端I / O是ioctl 的最大使用方面。

3.15 /dev/fd

比较新的系统都提供名为/ d e v / f d的目录,其目录项是名为0、1、2等的文件。打开文件/ d e v / f d / n等效于复制描述符n (假定描述符n是打开的)。

在函数中调用:
fd = open("/dev/fd/0", mode);
大多数系统忽略所指定的m o d e,而另外一些则要求m o d e是所涉及的文件(在这里则是标准输入)原先打开时所使用的m o d e的子集。因为上面的打开等效于:
fd = dup(0);
描述符0和f d共享同一文件表项(见图3 - 3 )。例如,若描述符0被只读打开,那么我们也只对f d进行读操作。即使系统忽略打开方式,并且下列调用成功:
fd = open("/dev/fd/0", O_RDWR);
我们仍然不能对f d进行写操作。

我们也可以用/ d e v / f d作为路径名参数调用c r e a t,或调用o p e n,并同时指定O _ C R E AT。这就允许调用c r e a t的程序,如果路径名参数是/ d e v / f d / 1等仍能工作。
某些系统提供路径名/ d e v / s t d i n , / d e v / s t d o u t和/ d e v / s t d e r r。这些等效于/ d e v / f d / 0 , / d e v / f d / 1和/ d e v / f d / 2。
/ d e v / f d文件主要由s h e l l使用,这允许程序以对待其他路径名一样的方式使用路径名参数来处理标准输入和标准输出。

3.16 小结





原创粉丝点击