Linux进程学习（总结学习关于“写时复制”）

来源：互联网发布：appium python client 编辑：程序博客网时间：2024/05/24 01:11

首先是对进程的理解定义：

进程（Process）是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配和调度的基本单位，是操作系统结构的基础。在早期面向进程设计的计算机结构中，进程是程序的基本执行实体；在当代面向线程设计的计算机结构中，进程是线程的容器。程序是指令、数据及其组织形式的描述，进程是程序的实体。

以上是百度的进程的概念。

我的理解就是，它是程序运行的过程，是cpu进行资源调度的基本单位，是线程的容器，是操作系统对系统资源的抽象。

linux系统通过PCB（PROCESS CONTROL BLOCK）来控制进程.

在linux中每个进程都有唯一的进程ID来标示进程，虽然是唯一的，但是确实可复用的。当一个进程终止时，他的ID就成为了复用的候选ID。

ID为0的进程，是系统内核进程。ID为1的进程，是init进程，在自举过程结束后由内核调用。该进程的程序文件在/sbin/init中，他负责系统初始化的一些东西。

在Linux中，进程不是相互独立的，每个进程（除了init进程）都有一个父进程(parent process)，同时每个进程可以有0个1个或多个子进程(child process)。换句话说，Linux的进程是一个树形结构，在Shell下输入pstree可以查看这个树的形状。

创建新进程：

一个现有的进程，使用fork可以创建新进程。

fork被调用一次，但是会返回两次。其返回两次的本质是：父进程与子进程有不同的各自的内存空间，返回值被返回到了两个进程的各自的内存空间。

返回值如果是-1的话，就说明创建失败。

返回值0是返回给子进程的。

返回值大于0的值是子进程的进程ID，返回给父进程。

为什么将子进程的ID返回给父进程？

因为父进程可以有多个子进程，并且没有相关的函数可以让父进程得到他所有子进程的ID。

为什么将0返回给子进程？

因为子进程可以使用getpid()得到父进程的ID，而进程ID0总是由内核交换进程使用，子进程的ID不可能为0.

在fork之后，子进程到底从父进程哪里得到了什么：

一般情况下，我们认为，子进程会得到父进程的堆，栈，数据段的副本，注意是副本，但是他们会共享代码段。

由于，获得了堆栈的复制，所以变量的地址（逻辑地址）应该也是一样的。

每个进程都有自己的虚拟地址空间，不同进程的相同的虚拟地址显然可以对应不同的物理地址。因此地址相同（虚拟地址）而值不同没什么奇怪。

不过，事实远非那么简单，linux使用了COW（Copy-On-Write）技术。即“写时复制”技术，也就是只有进程空间的各段的内容要发生变化时，才会将父进程的内容复制一份给子进程。这是由于，fork之后一般我们会使用exec,所以很多的实现并不执行一个父进程的完全的副本。

再说写时复制之前，需要理解逻辑地址和物理地址。

从逻辑地址到物理地址的映射称为地址重定向。分为：

静态重定向--在程序装入主存时已经完成了逻辑地址到物理地址和变换，在程序执行期间不会再发生改变。

动态重定向--程序执行期间完成，其实现依赖于硬件地址变换机构，如基址寄存器。

逻辑地址：CPU所生成的地址。CPU产生的逻辑地址被分为 :p （页号）它包含每个页在物理内存中的基址，用来作为页表的索引；d （页偏移），同基址相结合，用来确定送入内存设备的物理内存地址。

物理地址：内存单元所看到的地址。

用户程序看不见真正的物理地址。用户只生成逻辑地址，且认为进程的地址空间为0到max。物理地址范围从R+0到R+max，R为基地址,地址映射－将程序地址空间中使用的逻辑地址变换成内存中的物理地址的过程。由内存管理单元（MMU）来完成

在fork之后exec之前两个进程用的是相同的物理空间（内存区），子进程的代码段、数据段、堆栈都是指向父进程的物理空间，也就是说，两者的虚拟空间不同，但其对应的物理空间是同一个。当父子进程中有更改相应段的行为发生时，再为子进程相应的段分配物理空间，如果不是因为exec，内核会给子进程的数据段、堆栈段分配相应的物理空间（至此两者有各自的进程空间，互不影响），而代码段继续共享父进程的物理空间（两者的代码完全相同）。而如果是因为exec，由于两者执行的代码不同，子进程的代码段也会分配单独的物理空间。(总结就是，因为exec的使用，导致了父子进程，不能共享代码段了).

写时复制的过程：fork子进程完全复制父进程的栈空间，也复制了页表，但没有复制物理页面，所以这时虚拟地址相同，物理地址也相同，但是会把父子共享的页面标记为“只读”（类似mmap的private的方式），如果父子进程一直对这个页面是同一个页面，知道其中任何一个进程要对共享的页面“写操作”，这时内核会复制一个物理页面给这个进程使用，同时修改页表。而把原来的只读页面标记为“可写”，留给另外一个进程使用。

fork出来子进程之后，父子进程哪个先调度呢？

内核一般会先调度子进程，因为很多情况下子进程是要马上执行exec，会清空栈、堆。。这些和父进程共享的空间，加载新的代码段。。。，这就避免了“写时复制”拷贝共享页面的机会。如果父进程先调度很可能写共享页面，会产生“写时复制”的无用功。所以，一般是子进程先调度滴。

总结就是：刚开始，虚拟地址相同，物理地址也相同。有修改操作时，就变成了，虚拟地址相同，物理地址不同。

0 0