Linux进程管理

来源：互联网发布：apache struts2 tiles 编辑：程序博客网时间：2024/06/16 11:26

linux设备驱动归纳总结（四）：1.进程管理的相关概念

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

接下来的几节我会大概的讲一下内核进程的一些概念，其实应该在学习系统编程时候就应该知道的。。我参照的书籍是《linux内核设计与实现》（第三版）。我会尽可能地跳开内核代码，简述一下原理。

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

一、什么是进程

简单的说，进程就是正在运行的程序，一个程序可以同时有多个进程。学过C语言都知道，程序运行时并不是只有代码，还包含其他的资源，如打开的文件，信号，全局变量等等。我在《操作系统原理》中看过一个很生动很深刻的例子：一个人对照着菜谱做菜。在这例子中，人就是内核，菜谱就是程序，做菜的过程就是进程，而菜、锅就是这个进程的资源。

内核为线程提供了两种技术：虚拟处理器和虚拟内存。这就是说，每个进程都傻乎乎的认为自己独占着CPU和享用这4G的内存，确不知道内核在背后调度进程和给每个进程4G的虚拟地址。

进程由fork创建，通过exit退出。

有人或许会问，那线程是什么？线程就是一种特殊的进程。

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

二、进程是用什么结构体来维护

内核将所有的进程放在叫任务队列（task list）的双向循环链表中，链表中的每个项都是类型为task_struct、称为进程描述符的结构。每个进程描述符包含着一个进程的所有信息，驱动开发中我用得最频繁的有两个成员，pid(进程标识值)和comm（当前进程的所执行的程序文件名称）。

来张形象点的图：

获得当前正在进行的进程进程描述符也很简单，使用全局项current就可以获得。

/*4th_mutex/4th_mutex_1/1st/test.c*/

113 P_DEBUG("[%s]:pid[%d]\n", current->comm, current->pid);

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

三、进程的状态

我只说5种，其中前两种是之前在等待队列的时候介绍过。

1）TASK_RUNNING（运行）：该状态出现在进程正在运行，或者已经放在运行队列中等待执行（对应操作系统原理上所说的就绪状态）。这里要注意的是等待执行和休眠是两码事。

2）TASK_INTERRUPTIBLE（可中断休眠）：这就是休眠状态中一种，之所以说可中断，就是说除了可以被其他进程从等待队列唤醒以外，还可以接送到信号而唤醒，这是常用的休眠状态。

3）TASK_UNINTERRUPTIBLE（不可中断休眠）：这就是休眠状态的另一种，只能从等待队列被唤醒。因为它如此霸道，所以很少有人使用。

4）TASK_ZOMBIE（僵死）：这种情况出现在进程结束后，但父进程还有来回收该进程的进程描述符。

5）TASK_STOPPED（停止）：一看就知道，进程停止执行。

来个图来对照前四种状态的转换：

由上图可以看到用户空间的进程有fork()系统调用产生，如果运行途中没有任何阻塞，它会在最后调用do_exit将进程的状态转为TASK_ZOMBIE。等待父进程来收尸。接下来就要简单地说一下进程的创建和进程的终结。

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

四、进程的创建

进程的创建一般分两步：

1、调用fork()：

在系统编程时，我们一般都是调用fork()来创建新的用户进程。

先说一下传统的forl()的实现，传统的fork()被调用后，内核会拷贝父进程的所有资源给新建的子进程。要知道这是一个多愚蠢的操作，如果新建子进程是打算执行另一个新程序，之前的拷贝过程就白费了。

出于这样的原因，linux的fork()有了写时拷贝(copy-on-write)技术。从字面上就能理解意思，父进程创建子进程后，他给子进程创建一个文件描述符，并且与子进程以只读方式共享原有的资源，只有在子进程或者父进程修改资源时，资源才会被复制。所以说，在不修改资源的情况下，fork()的实际开销就两样：

1）复制父进程的页表给子进程。大家应该都知道，linux内存管理使用的页式管理，只要也就是说，只要把父进程的页表复制给子进程，子进程就能在页表中找到与父进程共享的4G虚拟地址了。

2）为子进程创建唯一的进程描述符。这个就不用解释了，进程与进程描述符是一一对应的。

fork具体调用的什么函数我就不详细说了，不过应该有这样的一个概念：

fork->clone->do_fork()->copy_procrss：

fork()系统调用根据提供的参数调用clone()，然后clone()去调用do_fork()，其中do_fork中完成了创建的大部分操作，里面有一个主要的函数copy_process()。

2、调用exec()：

一般的，创建的子进程都不是为了完成父进程中的任务，而是需要执行新的任务。exec()的作用就是读取可执行文件并加载到地址空间开始运行，可以类比成命令”./xxxxx”。如果fork()后子进程调用exec()执行新的代码，就不需要拷贝父进程的资源了。所以，一般fork()之后都是子进程先运行。

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

五、进程的终结：

一般的，进程调用exit()结束进程。相应的，exit()是调用do_exit()进行删除进程的资源和改变进程状态等操作。

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

六、什么是进程上下文：

用户态的应用程序执行系统调用时，它就会陷入内核空间，此时，我们称内核“代表进程执行”并处于进程上下文。简单的说，以我们之前写的驱动举例，当应用成调用open，他就会陷入内核调用驱动函数中的test_open，此时内核就处于进程上下文了。

值得一提的是，在进程上下文时，current始终有效，它还是指向应用层中的进程，所以在”1st”的例子中，tesp_open打印出来的进程号current->pid与应用层是一样的。

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

七、线程、进程和内核线程程又是怎么样的关系：

线程，它是进程活动中的对象，最通俗的解释，一个进程里面可以有一个或者多个线程，它们共同享用进程的资源。

内核线程，独立运行在内核空间的标准进程，但没有独立的运行空间，只运行在内核空间，但和普通进程一样被调度和抢占。

总的来说，线程（又叫用户线程）和内核线程都是进程的特殊形式，它们的创建同样也是通过调用clone()。它们和进程的最大区别在于它们没有独立的4G虚拟空间。

而线程和内核线程的区别就是：线程存在与用户态，内核线程存在与内核态。

同时需要强调的是，进程是存在于用户态的。

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

八、总结：

今天只是介绍了进程的一些基本的概念，为以后的进程调度、并发、竞态等理论打基础。

linux设备驱动归纳总结（四）：2.进程调度的相关概念

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

进程的调度就是指进程间的切换，进程调度的知识其实我也不太清除，我查找的资料有些说法并不一致，所以我只能说一下一些我的理解。如有错误或不足，望指正。

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

一、I/O消耗型进程和处理器消耗型的进程：

进程分为I/O消耗型和处理器消耗型两种。

I/O消耗型，是指进程大部分时间用来提交I/O请求或者等待I/O请求的进程。这类进程的特征是，经常需要运行，但执行一次需要的时间不长。如文字编辑。

处理器消耗型，是指进程大部分时间用来执行代码的进程。这类进程对系统的响应时间要求比较少，像看个视频，慢个半秒人是察觉不出来的。但这种进程耗CPU，所以这类型的进程需要更多一点的执行时间。

老李说，内核一切来源于生活，I/O消耗型就像解小手，经常得去，但每次花的时间不长，处理器消耗型就像解大手，有时一天要么就来一次，但也要花个十来分钟。

同时上面的两种进程分类并不是绝对的，进程可以同时属于这两种类型，就好像你上个厕所也可以同时干两件事。

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

二、进程的优先级

优先级其实就是一个数，优先级高的程序先运行，低优先级的程序后运行，这是基本的进程调度策略。

内核有两种不同的优先级，静态优先级和当态优先级，它们的进程的调度算法和时间片的分配方面起着重要作用，这里我不能一一详述，我也不太了解。

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

三、时间片

时间片是一个数值，我把它理解为：在一个周期里，内核调度全部进程的总时间中分给一个进程运行的时间。

譬如，现在有三个进程需要运行，在1秒内，进程A有0.6秒，进程B有0.3秒，进程C有0.1秒，它们所得到的时间就叫做时间片，如果没有中断等其它情况的话，进程A可以在内核分配的0.6秒内欢快地连续地运行，直到时间片用完。

当然，上面的立即举得有点过分，时间片的大小一般都是以ms为单位，时间片太长，用户就会觉得程序有延时，如果时间片太短，那大部分的时间都耗费在切换进程的功夫上，得不偿失。

另外，分配的时间片并不是一定要一次过用完，进程可以分开几次使用，如交互式的进程（文本编辑），内核分配给它的时间片远远多于处理一次输入的时间，所以这类的进程响应次数多，用的时间片却比消耗型进程的少。

又联系一下生活，譬如一个厕所的使用相当紧缺，公司规定，解大手的，一天只能10分钟，解小手的，一天也给你10分钟。当然不排除有奇人异士会尽情的享受一次10分钟的小解，但一般都会把时间分配到需要小解的时候。

还需要记住一点的是，内核等到所有进程的时间片都用完了，再对进程重新分配新的时间片。

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

四、进程的调度策略

基于上面介绍的上面三个概念，简单的说一下进程的调度策略。先说一下分类：

按调度策略分类：

SCHED_NORMAL：普通的分时进程，上层应用程序的默认策略。

SCHED_FIFO：先进先出的实时进程。

SCHED_RR：时间片轮转的实时进程。

按调度类分类：

CFS调度类：用于策略SCHED_NORMAL等。

实时调度类：用于SCHED_FIFO，SCHED_RR。

上面说了这么多只是想说一点，进程的调度策略有很多，因为书上讲的也不多，我也没细细去了解。基于CFS调度类，简单介绍一下上面提及的三个概念的关系。

直到我还对书上的一个话坚信不疑：“优先级越高，进程所能分到的时间片就越多”。其实这是不一定正确的，解小手优先级高就好了，凭什么时间还能比解大手的多，这公平吗？

优先级和时间片本来就是个矛盾的概念，有些进程被定义了高优先级是为了能够得到更快的调度，并不是为了获得更多的时间片。

《linux内核设计与实现》（第三版）举了CFS调度的这样一个例子：如果现在处理器上只有两个进程，一个是文字编辑，一个是视频解码。按照原来的理解，文字编辑的进程会获得高优先级和更多时间片。这样的话，视频解码的时间片就会显得不够用了。所以。事实上并不是这样子，基于CFS调度的算法，两个程序被分配了相同的优先级和时间片，这样就能确保视频解码进程能够有更多的时间进行解码。

那内核怎么确保文字编辑的响应呢？原来，内核会观擦两个进程在这段时间内谁已经使用的时间片更少，当使用时间片少的进程需要调度时，内核会优先考虑这样的进程。这样就达到了响应速度快的要求。

所以说，优先级和时间片的分配，是根据内核的调度算法分配。

具体的CFS算法在书上有详细的介绍。

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

五、总结

这次讲得很少，只是讲了进程调度的三个基本的概念，上面讲的内容并没有涉及内核抢占的知识，但是，不管在有没有内核抢占的情况下，上面的内容都是成立的。