由一道fork面试题展开来

来源：互联网发布：奇妙趋势分析软件编辑：程序博客网时间：2024/06/08 06:54

大部分资料参考：陈皓酷壳coolshell.cn http://coolshell.cn/articles/7965.html

宋劲杉 linux C一站式编程 http://learn.akae.cn/media/index.html

在酷壳博客站里，看到一篇博客，讲了一道关于fork的面试题，为了理解这个面试题背后的一些相关知识，我查找了资料，恶补了一下。然后把它记录下来，方便以后的查阅。

先供出那道fork的面试题：

题目：请问下面的程序一共输出多少个“-”？

1
2
3
4
5
6
7
8
9
10
11
12
13
14
#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>
 
intmain(void)
{
   inti;
   for(i=0; i<2; i++){
      fork();
      printf("-");
   }
 
   return0;
}

这道题不但考察了fork的相关知识，还考察了对C标准库的I/O缓冲区的理解。

fork的相关知识如下：

fork()系统调用是Unix下以自身进程创建子进程的系统调用，一次调用，两次返回，如果返回是0，则是子进程，如果返回值>0，则是父进程（返回值是子进程的pid），这是众为周知的。

还有一个很重要的东西是，在fork()的调用处，整个父进程空间会原模原样地复制到子进程中，包括指令，变量值，程序调用栈，环境变量，缓冲区，等等。

博客作者陈皓还画了一张示意图，分析了这个fork的机制在这个程序中的体现。我认为还是很直观，思路很清晰，能够帮助理解。（注意：下图中用了几个色彩，相同颜色的是同一个进程。先将源程序中的printf（“-“) 替换成printf（“-\n”），不考虑C标准库的I/O缓冲区的问题对结果的影响）

这里printf打印了6次“_”。如果把for条件中的循环i<2,改成i<3,则打印14次“_”。计算公式为打印次数 = 2 + 4 + 8 + 。。。+ 2 ^ i = 2 ^ (i+1) - 2 .

顺便补充一下跟for循环的相关知识：

for (控制表达式1; 控制表达式2; 控制表达式3) 语句

如果不考虑循环体中包含continue语句的情况（稍后介绍continue语句），这个for循环等价于下面的while循环：

控制表达式1;while (控制表达式2) {语句控制表达式3;}

从这种等价形式来看，控制表达式1和3都可以为空，但控制表达式2是必不可少的，例如for (;1;) {...}等价于while (1) {...}死循环。C语言规定，如果控制表达式2为空，则认为控制表达式2的值为真，因此死循环也可以写成for (;;) {...}。

现在来讲跟C标准库的I/O缓冲区相关的知识：

用户程序调用C标准I/O库函数读写文件或设备，而这些库函数要通过系统调用把读写请求传给内核（以后我们会看到与I/O相关的系统调用），最终由内核驱动磁盘或设备完成I/O操作。C标准库为每个打开的文件分配一个I/O缓冲区以加速读写操作，通过文件的FILE结构体可以找到这个缓冲区，用户调用读写函数大多数时候都在I/O缓冲区中读写，只有少数时候需要把读写请求传给内核。以fgetc/fputc为例，当用户程序第一次调用fgetc读一个字节时，fgetc函数可能通过系统调用进入内核读1K字节到I/O缓冲区中，然后返回I/O缓冲区中的第一个字节给用户，把读写位置指向I/O缓冲区中的第二个字符，以后用户再调fgetc，就直接从I/O缓冲区中读取，而不需要进内核了，当用户把这1K字节都读完之后，再次调用fgetc时，fgetc函数会再次进入内核读1K字节到I/O缓冲区中。在这个场景中用户程序、C标准库和内核之间的关系就像在CPU、Cache和内存之间的关系一样，C标准库之所以会从内核预读一些数据放在I/O缓冲区中，是希望用户程序随后要用到这些数据，C标准库的I/O缓冲区也在用户空间，直接从用户空间读取数据比进内核读数据要快得多。另一方面，用户程序调用fputc通常只是写到I/O缓冲区中，这样fputc函数可以很快地返回，如果I/O缓冲区写满了，fputc就通过系统调用把I/O缓冲区中的数据传给内核，内核最终把数据写回磁盘。有时候用户程序希望把I/O缓冲区中的数据立刻传给内核，让内核写回设备，这称为Flush操作，对应的库函数是fflush，fclose函数在关闭文件之前也会做Flush操作。（注：printf属于C标准I/O库的一个函数）

下图以fgets/fputs示意了I/O缓冲区的作用，使用fgets/fputs函数时在用户程序中也需要分配缓冲区（图中的buf1和buf2），注意区分用户程序的缓冲区和C标准库的I/O缓冲区。

C标准库的I/O缓冲区有三种类型：全缓冲、行缓冲和无缓冲。当用户程序调用库函数做写操作时，不同类型的缓冲区具有不同的特性。

全缓冲: 如果缓冲区写满了就写回内核。常规文件通常是全缓冲的。
行缓冲: 如果用户程序写的数据中有换行符就把这一行写回内核，或者如果缓冲区写满了就写回内核。标准输入和标准输出对应终端设备时通常是行缓冲的。
无缓冲: 用户程序每次调库函数做写操作都要通过系统调用写回内核。标准错误输出通常是无缓冲的，这样用户程序产生的错误信息可以尽快输出到设备。

下面通过一个简单的例子证明标准输出对应终端设备时是行缓冲的。

#include <stdio.h>int main(){printf("hello world");while(1);return 0;}

运行这个程序，会发现hello world并没有打印到屏幕上。用Ctrl-C终止它，去掉程序中的while(1);语句再试一次：

$ ./a.outhello world$

hello world被打印到屏幕上，后面直接跟Shell提示符，中间没有换行。

我们知道main函数被启动代码这样调用：exit(main(argc, argv));。main函数return时启动代码会调用exit，exit函数首先关闭所有尚未关闭的FILE *指针（关闭之前要做Flush操作），然后通过_exit系统调用进入内核退出当前进程^[35]。

在上面的例子中，由于标准输出是行缓冲的，printf("hello world");打印的字符串中没有换行符，所以只把字符串写到标准输出的I/O缓冲区中而没有写回内核（写到终端设备），如果敲Ctrl-C，进程是异常终止的，并没有调用exit，也就没有机会Flush I/O缓冲区，因此字符串最终没有打印到屏幕上。如果把打印语句改成printf("hello world\n");，有换行符，就会立刻写到终端设备，或者如果把while(1);去掉也可以写到终端设备，因为程序退出时会调用exitFlush所有I/O缓冲区。在本书的其它例子中，printf打印的字符串末尾都有换行符，以保证字符串在printf调用结束时就写到终端设备。

事实上，最开始的关于fork的那个程序会输出8个“-”，这是因为printf(“-”);语句有buffer，所以，对于上述程序，printf(“-”);把“-”放到了缓存中，并没有真正的输出（参看《C语言的迷题》中的第一题），在fork的时候，缓存被复制到了子进程空间，所以，就多了两个，就成了8个，而不是6个。

另外，多说一下，我们知道，Unix下的设备有“块设备”和“字符设备”的概念，所谓块设备，就是以一块一块的数据存取的设备，字符设备是一次存取一个字符的设备。磁盘、内存都是块设备，字符设备如键盘和串口。块设备一般都有缓存，而字符设备一般都没有缓存。

对于上面的问题，我们如果修改一下上面的printf的那条语句为：

1
printf("-\n");

或是

1
2
printf("-");
fflush(stdout);

就没有问题了（就是6个“-”了），因为程序遇到“\n”，或是EOF，或是缓中区满，或是文件描述符关闭，或是主动flush，或是程序退出，就会把数据刷出缓冲区。需要注意的是，标准输出是行缓冲，所以遇到“\n”的时候会刷出缓冲区，但对于磁盘这个块设备来说，“\n”并不会引起缓冲区刷出的动作，那是全缓冲，你可以使用setvbuf来设置缓冲区大小，或是用fflush刷缓存。

这样，对于printf(“-”);这个语句，我们就可以很清楚的知道，哪个子进程复制了父进程标准输出缓中区里的的内容，而导致了多次输出了。（如下图所示，就是阴影并双边框了那两个子进程）

到此对这道fork面试题的探讨告一段落。