Linux管道(pipe)的那些事

来源:互联网 发布:秦舞阳13岁杀人知乎 编辑:程序博客网 时间:2024/06/08 17:05

1 管道(pipe)

Linux 中的管道可用于不同进程之间的通信,其操作符为 “|”。 通常管道只能在具有新缘关系(父子或拥有相同祖先)的进程间通信。而有名管道克服了管道没有名字的限制,因此它可允许无亲缘关系进程间的通信。

1.1 实现机制

管道是由内核管理的一个缓冲区,管道的一端连接一个进程的输出,这个进程会向管道中放入信息。管道的另一端连接一个进程的输入,这个进程取出被放入管道的信息。当管道中没有信息的话,从管道中读取的进程会等待,直到另一端的进程放入信息。当管道被放满信息的时候,尝试放入信息的进程会等待,直到另一端的进程取出信息。当两个进程都终结的时候,管道也自动消失。

管道的利用POSIX系统中的fork机制建立的。fork机制会将原进程复制到新进程,并且将原进程对其缓冲区的连接也一块复制过来。这样原进程和新进程都拥有了对同一缓冲区的(即管道)的读写能力,同时,每个进程关闭自己不需要的一个连接,一个只留读连接,一个只留写连接,这样就形成了管道。

1.2 操作举例

显示前三个文件的文件名:
  1. ls | head -3
  2. barry.txt
  3. bob
  4. example.png

将一个程序的输出传递给less命令使其易于查看:

  1. ls -l /etc | less
  2. (Full screen of output you may scroll. Try it yourself to see.)


列出当前目录下所有具写权限的文件:

ls -l | grep '^.....w'
drwxrwxr-x 3 ryan users 4096 Jan 21 04:12 dropbox

1.3 命名管道

由于基于fork机制的限制,管道只能用于父进程和子进程之间,或者有相同祖先的两个子进程之间的通信。为了解决这一问题,Linux提供了FIFO方式连接进程。FIFO又叫做命名管道(named PIPE)。

FIFO (First in, First out)为一种特殊的文件类型,它在文件系统中有对应的路径。FIFO只是借用了文件系统来为管道命名。当一个进程以读(r)的方式打开该文件,而另一个进程以写(w)的方式打开该文件,那么内核就会在这两个进程之间建立管道,当删除FIFO文件时,管道连接也随之消失。所以FIFO实际上也由内核管理,不与硬盘打交道。之所以叫FIFO,是因为管道本质上是一个先进先出的队列数据结构,最早放入的数据被最先读出来,从而保证信息交流的顺序。命名管道的好处在于我们可以通过文件的路径来识别管道,从而让没有亲缘关系的进程之间建立连接。

用ls命令查看所创建的管道:

$ ls -lF /tmp/my_fifo

prwxr-xr-x 1 root root 0 05-08 20:10 /tmp/my_fifo|


2 fork

2.1 进程

在说fork之前,我们先来复习一下操作系统中进程的相关内容:
进程可以看做程序的一次执行过程,且是拥有资源的最小单位和调度单位(在引入线程的操作系统中,线程是最小的调度单位)。在linux中,每个进程有唯一的PID(进程标识符)标识。PID是一个从1到32768的正整数,其中1是特殊进程init,其它进程从2开始依次编号。当用完32768后,从2重新开始。

Linux中有一个叫进程表的结构用来存储当前正在运行的进程。可以使用“ps aux”命令查看所有正在运行的进程。

进程在linux中呈树状结构,init为根节点,其它进程均有父进程,某进程的父进程就是启动这个进程的进程,这个进程叫做父进程的子进程。

2.2 fork

在Linux系统中创建进程的方式有两种:一是由操作系统创建,二是由父进程创建进程(通常为子进程),即fork。一个进程(父进程)调用fork()函数后,系统先给新的进程(子进程)分配资源,然后把原来进程的所有数据(变量、环境变量、程序计数器等)都复制到新的新进程中,只有少数值与原来的进程的值不同,相当于克隆了一个自己。

子进程是父进程的副本,它将获得父进程数据空间、堆、栈等资源的副本,子进程数据空间中的内容是父进程的完整拷贝。注意,子进程持有的是上述存储空间的“副本”,这意味着父子进程间不共享这些存储空间,它们之间共享的存储空间只有代码段。,但只有一点不同,如果fork成功,子进程中fork的返回值是0, 父进程中fork的返回值是子进程的进程号,如果fork不成功,父进程会返回错误。 

从性能方面考虑,父进程到子进程的数据拷贝并不是创建时就拷贝了的,而是采用了写时拷贝(copy-on -write)技术来处理。用fork创建的子进程和父进程作为异步的并发进程而单独执行,它们都有独自的进程标识符(PID)。异步是指它们各行其事,相互间不进行同步;并发是指它们可同时执行。所以我们无法知道子进程和父进程哪一个先执行完。

2.3 举例

C语言版fork例子:
  1. #include <unistd.h>  
  2. #include <stdio.h>   
  3. int main ()   
  4. {   
  5.     pid_t fpid; //fpid表示fork函数返回的值  
  6.     int count=0;  
  7.     fpid=fork();   
  8.     if (fpid < 0)   
  9.         printf("Error in fork!");   
  10.     else if (fpid == 0) {  
  11.         printf("I'm child process, my process id is %d\n",getpid()); 
  12. count++;
  13.     }  
  14.     else {  
  15.         printf("I'm parent process, my process id is %d\n",getpid()); 
  16. count++; 
  17.     } 
  18.     printf("Count value: %d\n", count);
  19.     return 0;  
  20. }  


运行的结果是:

    i'm child process, my process id is 5574

    Count value: 1
    i'm parent process, my process id is 5573

    Count value: 1
每个进程的PID都可以通过getpid()函数获得,另外还可以通过getppid()函数获得其父进程的PID.

调用fork()(fpid=fork())后生成一个子进程,在子进程中,fork()函数的返回值为0,在父进程中,fork()的返回值为子进程的PID。此后,两个进程根据不同的判断条件(fpid<0; fpid==0)执行不同的代码指令,它们的执行是相互独立的。这两个进程都有一个count变量,这两个变量虽然值相等,但其实它们属于不同的进程,是不同的变量,存放在不同的内存地址中。另外,子进程生成之后是从fork()函数之后的代码开始执行的,而不是从#include <unistd.h>处。 这是因为fork操作复制并使用了原进程的程序计数器的缘故。


3. 文件描述符(file descriptor)

当fork函数生成两个进程之后,这两个进程可以利用相同的文件描述符对同一个文件进行读/写操作,这样就可以在两个进程之间传递数据了。

3.1 文件描述符

对于linux/Unix而言,任何事物都以文件的形式存在。通过文件不仅可以访问常规数据,还可以访问网络连接和硬件设备。而文件描述符就是用来访问这些文件的入口。像TCP和UDP等网络应用程序,系统在后台都为该应用程序分配了一个文件描述符,无论这个文件的本质如何。该文件描述符为应用程序与基础操作系统之间的交互提供了通用接口。
文件描述符是一个非负的整数,它是一个索引值,指向内核中每个进程打开文件的记录表。当进程打开一个文件或创建一个文件时,内核就向进程返回一个文件描述符。当进程需要读写文件时,也需要把文件描述符作为参数传递给相应的函数。
每一个文件描述符会与一个打开的文件相对应,同时,不同的文件描述符也可能指向同一个文件。相同的文件可以被不同的进程打开也可以在同一个进程中被多次打开。系统为每一个进程维护了一个文件描述符表,该表的值都是从0开始的,所以在不同的进程中会看到相同的文件描述符,这种情况下相同文件描述符有可能指向同一个文件,也有可能指向不同的文件。

3.2 与文件有关的三个表

在Linux系统中,内核维护着3个与文件有关的数据结构,它们是:
1)进程级文件描述符表(file descriptor table)
内核为每个进程维护一个进程级别的文件描述符表,该表记录了单个文件描述符的信息,包括:控制标志,打开文件指针等。
2)系统级打开文件表(open file table)
内核为所有打开的文件维护一个系统级别的打开文件描述表,简称打开文件表。记录了每个打开文件的信息,包括:
文件偏移量(file offset), 可调用read()和write()更新,调用lseek()直接修改。
访问模式(status), 可调用open()设置,其状态有只读,只写或读写等。
i-node 对象指针
3)文件系统 i-node 表(i-node table)
每个文件系统会为存储于其上的所有文件(包括目录)维护一个 i-node 表,单个 i-node 包含的信息有:文件类型(常规文件,目录,套接字或FIFO)、访问权限(读、写、执行等)、文件锁列表,文件大小等。
i-node 存储在磁盘设备上,内核在内存中维护了一个副本,这里的i-node表为后者。内存中的副本除了原有信息,还包括:引用计数、所在设备号以及一些临时属性(例如文件锁)。

这3个数据结构的关系如下图所示:



3.3 输入输出重定向

通常,一个进程启动时,Linux/Unix系统会首先为其分配3个文件描述符: 0,1和2,它们分别对应系统中的3个文件:标准输入(STDIN),标准输出(STDOUT),标准错误输出(STDERR)。
Linux中可以使用重定向操作来指定文件描述符,这分为输入重定向和输出重定向。在使用输入重定向(>)时,linux会用重定向指定的文件来替换标准输入文件描述符,它会读取文件并提取数据,如同是在键盘上输入的。在使用输出重定向(>)时,linux会用重定向指定的文件来替换标准输出文件描述符。(>>)表示追加到文件。“&”表示引用文件描述符。
1.临时重定向
echo "This is only in the file" > file 此消息将只输出到file文件,而不输出到屏幕。它的原理就是将标准输出重定向到了文件file. 这里省略了标准输出文件描述符“1”。实际应为: echo "This is only in the file" 1>file.
2.永久重定向
exec 1> file将标准输出重定向到文件file
echo "This is only in the file"   
3.输入重定向
cat <file 将file文件作为cat命令的输入

4.重定向文件描述符

exec 3>&1      #将文件描述符3重定向至1,任何发送给文件描述符3的内容都将输出至终端显示器

exec 1>file     #将发送至文件描述符1的内容重定向至文件file

echo "this should be put in the file"

exec 1>&3 #将此时的标准输出重定向至文件描述符3,而3指向的是终端显示器,因此此时正常输出至显示器

echo "this is the normal output"


3.4 文件描述符的设置

为了防止系统资源的耗尽,linux内核对文件打开的数量进行了限制。这种限制有两个层面,一个是用户层面的限制,一个是系统层面的限制。

ulimit命令看到的是用户级的最大文件描述符限制,也就是说每一个用户登录后执行的程序占用文件描述符的总数不能超过这个限制

[root@localhost ~]# ulimit  -n

10240

设置进程能打开的最大文件句柄数:ulimit -n xxx

[root@localhost ~]# ulimit  -n 10240

10240


sysctl命令和proc文件中查看到的数值是一样的,这属于系统级限制,它是限制所有用户打开文件描述符的总和

[root@localhost ~]# sysctl -a | grep -i file-max --color

fs.file-max = 392036

[root@localhost ~]# cat /proc/sys/fs/file-max

392036

修改系统层面的限制需要修改/proc/sys/fs/file-max中的值并且使用"sysctl -p"使之永久生效。


3.5 文件描述符复制与管道的建立

为了生成linux中的管道,首先使用pipe()函数得到一对文件描述符,它们是只读文件描述符和只写文件描述符。fork()函数执行之后,子进程会将父进程的数据拷贝一份,同样,子进程也会拥有父进程所有文件描述符的副本。这时在父进程中关闭读文件描述符,只留下写文件描述符;而在子进程则关闭写文件描述符,只留下读文件描述符。当父进程进行写操作而子进程进行读操作时,就相当于两个进程在通信,管道就形成了。其实,用户程序的系统调用仍然是通常的文件操作,而内核却利用这种抽象机制实现了管道这一特殊操作。

管道建立图示: