Linux下fork创建进程的一些思考

来源：互联网发布：java中怎么求绝对值编辑：程序博客网时间：2024/06/05 08:50

1. 进程的概念

在多道程序环境下，允许多个程序并发执行，此时它们将失去封闭性，并具有间断性及不可再现性的特征。为此引入了进程(Process)的概念，以便更好地描述和控制程序的并发执行，实现操作系统的并发性和共享性。

为了使参与并发执行的程序（含数据）能独立地运行，必须为之配置一个专门的数据结构，称为进程控制块(Process Control Block, PCB)。系统利用PCB来描述进程的基本情况和运行状态，进而控制和管理进程。相应地，由程序段、相关数据段和PCB三部分构成了进程映像（进程实体）。所谓创建进程，实质上是创建进程映像中的PCB；而撤销进程，实质上是撤销进程的PCB。值得注意的是，进程映像是静态的，进程则是动态的。

注意：PCB是进程存在的唯一标志！

从不同的角度，进程可以有不同的定义，比较典型的定义有：

进程是程序的一次执行过程。
进程是一个程序及其数据在处理机上顺序执行时所发生的活动。
进程是具有独立功能的程序在一个数据集合上运行的过程，它是系统进行资源分配和调度的一个独立单位。
2.进程的特征

进程是由多程序的并发执行而引出的，它和程序是两个截然不同的概念。进程的基本特征是对比单个程序的顺序执行提出的，也是对进程管理提出的基本要求。

动态性：进程是程序的一次执行，它有着创建、活动、暂停、终止等过程，具有一定的生命周期，是动态地产生、变化和消亡的。动态性是进程最基本的特征。
并发性：指多个进程实体，同存于内存中，能在一段时间内同时运行，并发性是进程的重要特征，同时也是操作系统的重要特征。引入进程的目的就是为了使程序能与其他进程的程序并发执行，以提高资源利用率。
独立性：指进程实体是一个能独立运行、独立获得资源和独立接受调度的基本单位。凡未建立PCB的程序都不能作为一个独立的单位参与运行。
异步性：由于进程的相互制约，使进程具有执行的间断性，即进程按各自独立的、不可预知的速度向前推进。异步性会导致执行结果的不可再现性，为此，在操作系统中必须配置相应的进程同步机制。
结构性：每个进程都配置一个PCB对其进行描述。从结构上看，进程实体是由程序段、数据段和进程控制段三部分组成的。
3.进程的状态与转换
进程在其生命周期内，由于系统中各进程之间的相互制约关系及系统的运行环境的变化，使得进程的状态也在不断地发生变化（一个进程会经历若干种不同状态）。通常进程有以下五种状态，前三种是进程的基本状态。

1) 运行状态：进程正在处理机上运行。在单处理机环境下，每一时刻最多只有一个进程处于运行状态。

2) 就绪状态：进程已处于准备运行的状态，即进程获得了除处理机之外的一切所需资源，一旦得到处理机即可运行。

3) 阻塞状态，又称等待状态：进程正在等待某一事件而暂停运行，如等待某资源为可用（不包括处理机）或等待输入/输出完成。即使处理机空闲，该进程也不能运行。

4) 创建状态：进程正在被创建，尚未转到就绪状态。创建进程通常需要多个步骤：首先申请一个空白的PCB，并向PCB中填写一些控制和管理进程的信息；然后由系统为该进程分配运行时所必需的资源；最后把该进程转入到就绪状态。

5) 结束状态：进程正从系统中消失，这可能是进程正常结束或其他原因中断退出运行。当进程需要结束运行时，系统首先必须置该进程为结束状态，然后再进一步处理资源释放和回收等工作。

注意区别就绪状态和等待状态：就绪状态是指进程仅缺少处理机，只要获得处理机资源就立即执行；而等待状态是指进程需要其他资源（除了处理机）或等待某一事件。之所以把处理机和其他资源划分开，是因为在分时系统的时间片轮转机制中，每个进程分到的时间片是若干毫秒。也就是说，进程得到处理机的时间很短且非常频繁，进程在运行过程中实际上是频繁地转换到就绪状态的；而其他资源（如外设）的使用和分配或者某一事件的发生（如I/O操作的完成）对应的时间相对来说很长，进程转换到等待状态的次数也相对较少。这样来看，就绪状态和等待状态是进程生命周期中两个完全不同的状态，很显然需要加以区分。
五种进程状态的转换如下：这里写图片描述
就绪状态 -> 运行状态：处于就绪状态的进程被调度后，获得处理机资源（分派处理机时间片），于是进程由就绪状态转换为运行状态。

运行状态 -> 就绪状态：处于运行状态的进程在时间片用完后，不得不让出处理机，从而进程由运行状态转换为就绪状态。此外，在可剥夺的操作系统中，当有更高优先级的进程就、绪时，调度程度将正执行的进程转换为就绪状态，让更高优先级的进程执行。

运行状态 -> 阻塞状态：当进程请求某一资源（如外设）的使用和分配或等待某一事件的发生（如I/O操作的完成）时，它就从运行状态转换为阻塞状态。进程以系统调用的形式请求操作系统提供服务，这是一种特殊的、由运行用户态程序调用操作系统内核过程的形式。

阻塞状态 -> 就绪状态：当进程等待的事件到来时，如I/O操作结束或中断结束时，中断处理程序必须把相应进程的状态由阻塞状态转换为就绪状态。
4.PCB的数据结构如下：
⑴ 进程表项（Process Table Entry）。
包括一些最常用的核心数据,如: 进程标识符PID、用户标识符UID、进程状态、事件描述符、进程和U区在内存或外存的地址、软中断信号、计时域、进程的大小、偏置值nice、指向就绪队列中下一个PCB的指针P_Link、指向U区进程正文、数据及栈在内存区域的指针。
⑵ U区（U Area）。
用于存放进程表项的一些扩充信息。每一个进程都有一个私用的U区，其中含有：进程表项指针、真正用户标识符u-ruid(read user ID)、有效用户标识符u-euid(effective user ID)、用户文件描述符表、计时器、内部I/O参数、限制字段、差错字段、返回值、信号处理数组。
由于UNIX系统采用段页式存储管理，为了把段的起始虚地址变换为段在系统中的物理地址，便于实现区的共享，所以还有：
⑶ 系统区表项。
以存放各个段在物理存储器中的位置等信息。系统把一个进程的虚地址空间划分为若干个连续的逻辑区，有正文区、数据区、栈区等。这些区是可被共享和保护的独立实体，多个进程可共享一个区。为了对区进行管理，核心中设置一个系统区表，各表项中记录了以下有关描述活动区的信息：区的类型和大小、区的状态、区在物理存储器中的位置、引用计数、指向文件索引结点的指针。
⑷ 进程区表
系统为每个进程配置了一张进程区表。表中，每一项记录一个区的起始虚地址及指向系统区表中对应的区表项。核心通过查找进程区表和系统区表，便可将区的逻辑地址变换为物理地址。
好了，有了上面的基础，接下来就是真正重要的东西了

6.Linux下什么是fork()

查看一下man 手册
如果你的英文足够好就直接看下面的图片吧，这是CentOS 7.0下man手册的东西
这里写图片描述

英语不太好，觉得阅读有困难的话，请看我的干要翻译（这是干要，这是干要，不是全部）：
fork通过复制父进程来创建一个新的进程。这个新创建的进程称为调用fork()函数的子进程，这个调用fork（）的进程称为子进程的父进程。子进程除了以下几点之外就是父进程的一个复制品。
*子进程有其唯一的PID；
*子进程的父进程PID（PPID）和父进程的PID是相同的；
*子进程不继承父进程的内存块；
*子进程的资源使用计数器和CPU时间计数器都将被置为空；
*子进程挂起信号量的数目初始化为0；
*子进程并不继承父进程的信号量调节器；
*子进程并不继承父进程的记录锁；
*子进程不继承父进程的时间计数器；
*子进程不继承父进程的异步I/O操作和异步I/O操作内容；

7.fork创建出来的子进程从哪里开始执行

加入一个程序有partA+fork+partB组成，如图：
这里写图片描述
那么当父进程执行到fork的同时会创建一个子进程，然后父进程接着执行直到结束。在子进程当中会从fork开始执行，直至结束。
所涉及的中断调用
如果Fork成功则在父进程会返回新建立的子进程代码（PID），而在新建立的子进程中则返回0。如果fork失败则直接返回-1。
getpid()
取得目前进程的识别码，许多程序利用取到的此值来建立临时文件，以避免临时文件相同带来的问题。
getppid（）
取得目前进程的父进程识别码。
下面来看代码：
i、我们要一个这样的进程树
这里写图片描述

#include<stdio.h>#include<stdlib.h>main(){    int p1,p2;    while(-1==(p1=fork()));    if(0==p1)        printf("son process,ppid is %d, pid is %d \n\n",getppid(),getpid());    else    {        while(-1==(p2=fork()));        if(0==p2)            printf("daughter process,ppid is %d, pid is %d \n\n",getppid(),getpid());        else        {            printf("father process,ppid is %d, pid is %d \n\n",getppid(),getpid());            wait(0);            wait(0);        }    }}

运行结果：
这里写图片描述
我们可以看到当父进程创建了子进程son之后，son是服复制了一份一样的代码，之不多son是从第一个fork开始运行的，这行代码在父进程father中返回的是子进程的pid,在子进程当中返回的是0。
这就像指针中，头节点的指针域指向下一节点，而尾节点的指针为空指针一样的道理。
ii、我们再来看一看这样的一颗进程树：
这里写图片描述

#include<stdlib.h>#include<stdio.h>main(){    int  p1, p2;    while(-1==(p1=fork()));    if(p1==0)    {        while(-1==(p2=fork()));        if(0==p2)            printf("I am grandson,my ppid is %d,pid is %d\n\n",getppid(),getpid());        else        {            printf("I am son,my ppid is %d,pid is %d\n\n",getppid(),getpid());            wait(0);        }       }    else    {        printf("I am father,my ppid is %d,pid is %d\n\n",getppid(),getpid());        wait(0);    }}

运行结果：
这里写图片描述

通过上面这两个例子，我们可以很直观地看到fork出来的子进程是从fork这行代码开始往下执行的，而不是从头执行。子进程虽然只从fork开始执行但是却同样持有父进程所有的代码的copy。我们仔细一想，linux中的所有的进程都是由父进程创建的，如果所有的子进程都是从头开始执行的话，那么我们的PC不得崩溃了啊，这势必会造成极大的资源浪费。

8.fork出来的子进程和父进程到底谁先执行

答案是肯定的，既然进程是用于解决多任务的，进程之间的执行顺序是不确定的。
fork出来的子进程是一个就绪状态，这是他在等待队列中，只要它已抢占到CPU就可以执行。
如果有哪个操作系统进程之间的执行是有先后顺序的，我想这肯定是一个bug。因为如果有先后顺序，那么这个操作系统该怎么做到程序的并发执行？
所以我们最终的结论就是：

子进程和父进程谁先执行决定于谁先从就绪状态抢占到了CPU，并没有确定的先后顺序。

0 0