vfork与fork的区别

来源：互联网发布：网络拓扑图和系统架构编辑：程序博客网时间：2024/05/17 21:06

一、fork( ), vfork( )简介
1、linux下C编程，创建子进程用fork( )和vfork( )函数。他们被调用一次，却返回两次，根据返回值不同用来确定是子进程还是父进程：
（1）、如果返回值是0，则是子进程；
（2）、如果返回值不是0，则是父进程，并且此返回值是子进程的PID。
子进程和父进程只共享代码段，以及父进程的所有打开的文件描述符（慎用），不共享数据段、栈和堆。
例子 1：
#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>

int main()
{
    int count = 0;
    pid_t pid;
    pid = fork();
    count++;
    if(pid == -1)
    {
        printf("fork() error\n");
    }
    else if(pid == 0)
    {
        printf("child process: count = %d\n", count);
    }
    else
    {
        printf("father process: count = %d\n", count);
    }
    return 0;
}

打印结果会打印两次，并且两次结果都是1。因为父、子进程不共享数据段，count在子进程中有一个独立于父进程的的副本。
2、fork( )和vfork( )的区别：
（１）在fork(）之后父进程先执行还是子进程先执行是不确定的。这取决去内核所采用的算法。（我的疑问：进程刚创建时不是在就绪状态吗？应该一般是父进程先运行啊。）vfork( )保证子进程先运行，在它调用exec或exit之后父进程才可能被调度执行。ps: 也可以用sleep（）来阻塞进程，确保是父还是子先运行所想要的代码。
（2）vfork( )创建子进程后，它不将父进程的地址空间完全复制到子进程中。相反，在子进程调用exec或exit之前，它在父进程的空间中运行，即共享数据段、队和栈。
例子 2：
#include <stdio.h>
#include <sys/types.h>
#include <unistd.h>
#include <stdlib.h>

int main()
{
    int count = 0;
    pid_t pid;
    pid = vfork();
    count++;
    if(pid == -1)
    {
        printf("vfork() error\n");
        return -1;
    }
    else if(pid == 0)
    {
        printf("child process: count = %d\n", count);
        exit(0);
    }
    printf("father process: count = %d\n", count);
    return 0;
}
打印结果如图所示：

因为子进程和父进程共享数据段，所以会对同一个count加两次。
3、pthread_create()简介
一个进程中的所有线程都可以访问该进程的组成部分，如文件描述符和内存。但是在共享变量方面又有些需要注意的地方。在传统的Unix模型中，每个进程只有一个控制线程。在POSIX线程（pthread）的情况下，程序开始运行时，它也是以单进程中的控制线程起动的，在创建多个控制线程以前，程序的行为与传统的进程没有什么区别。新增的线程可以通过调用pthread_create函数创建。
例子 3：看下面的thread_share.c的代码
#include <stdio.h>
#include <pthread.h>
#include <unistd.h>

int a = 1;

void printids(const char *s)
{
    pid_t pid;
    pthread_t tid;

    pid = getpid();
    tid = pthread_self();
    printf("%s pid %u tid %u\n", s, (unsigned int)pid, (unsigned int)tid);
}

void *create(void *arg)
{
    printids("new thread");
    printf("in new thread: a = %d\n", a);
    a++;
    return (void *)0;
}

int main()
{
    pthread_t tid;
    int error;
    int a = 5;
    printf("in main1: a = %d\n", a);

    error = pthread_create(&tid, NULL, create, NULL);
    if(error != 0)
    {
        printf("new thread is not create...\n");
        return -1;
    }

    sleep(3);
    printids("main thread:");
    printf("in main thread: a = %d\n", a);

    printf("new thread is created ...\n");
    return 0;
}
该程序的运行结果会是什么样的呢？打印a的结果会是怎么样？结果如图：

为什么新线程打印的a是1，而主线程打印的a是5。同一进程的所有线程不是共享进程的所有资源吗？
4、C程序的存储空间布局
C程序一直由以下几个部分组成：如图所示：

（1）正文段：这是由CPU执行的机器指令部分。通常，正文段是可共享的，所以即使是经常环境指针环境表环境字符串执行的程序(如文本编辑程序、C编译程序、s h e l l等)在存储器中也只需有一个副本，另外，正文段常常是只读的，以防止程序由于意外事故而修改其自身的指令。
（2）初始化数据段：通常将此段称为数据段，它包含了程序中需赋初值的变量。初始化的全局变量和静态变量存放在这里。例如，C程序中任何函数之外的说明：int maxcount = 99; 使此变量以初值存放在初始化数据段中。
（3）非初始化数据段：通常将此段称为bss段，这一名称来源于早期汇编程序的一个操作符，意思是“block started by symbol（由符号开始的块）”，未初始化的全局变量和静态变量存放在这里。在程序开始执行之前，内核将此段初始化为0。函数外的说明：long sum[1000] ; 使此变量存放在非初始化数据段中。
（4）堆：通常在堆中进行动态存储分配。如程序中的malloc, calloc, realloc等函数都从这里面分配。堆是从下向上分配的。需要由程序员分配释放管理，若程序员不释放，程序结束时可能由OS回收。
（5）栈：自动变量以及每次函数调用时所需保存的信息都存放在此段中。由编译器自动分配释放管理。局部变量及每次函数调用时返回地址、以及调用者的环境信息（例如某些机器寄存器）都存放在栈中。新被调用的函数在栈上为其自动和临时变量分配存储空间。通过以这种方式使用栈，C函数可以递归调用。递归函数每次调用自身时，就使用一个新的栈帧，因此一个函数调用实例中的变量集不会影响另一个函数调用实例中的变量。
因此可知，在C语言里，变量可存在全局数据区（初始化数据段、非初始化数据段）、栈和堆里。
再回到例子3。
int a = 1; 是全局变量，储存在初始化的数据段，主线程和新的线程共享这个变量。而在main（）函数中的int a = 5是在栈中分配的，而主线程和新线程不共享栈、寄存器以及堆。因为“线程有一个程序计数器，用来跟踪下一条将要执行的质量。它有寄存器，存储当前使用的变量。它有堆栈，它存储着执行的历史，其中每个栈帧（frame）保存了没有返回的过程调用。”（《操作系统设计与实现》第三版P46)。新线程中的a中存储的值是1，故打印了1，而main线程中的局部变量a在主函数中会屏蔽全局变量a，这与变量的作用域有关，局部变量a是在栈中分配的，不会影响到全局变量a，因此main线程打印的是5。

0 0