Linux内核创建一个新进程的过程

来源：互联网发布：保护地球环境资料数据编辑：程序博客网时间：2024/05/22 01:45

罗晓波 + 原创作品转载请注明出处 + 《Linux内核分析》MOOC课程http://mooc.study.163.com/course/USTC-1000029000

本文通过一个小实验，fork的这个系统调用，来说明linux内核创建一个新进程的过程。

一、实验：

同样，依旧是在实验楼上面做的实验。

先是启动一下我们之前提到的menuos这个精简的linux内核，这个内核里加入了fork系统调用所对应的命令。

接下来，用gdb来进行调试fork系统调用的相关的内核代码，我们来看一下发生了神马。在以下的代码处放了breakpoint。

接下来，我们continue之后，就可以一步步next的来进行了。

在do_fork这里停下，do_fork函数负责处理clone、fork、vfork的系统调用。

do_fork是利用copy_progcess函数来创建进程描述符以及子进程执行所需要的内核数据结构。在dofork之后，继续n；

进入copy_process函数。下面是跟踪copy_process函数的一个截图：

这里我们可以看到，正在调用alloc_thread_info，这个函数其实是在dup_task_struct()这个函数里执行的。这个宏执行之后，获取一块空闲的内存区域，用来存放新进程的threadinfo以及内核栈，并且将这块内存区字段的地址存在局部变量ti中。finish这个函数之后，继续c，来到copy_thread函数：

这里的pt_regs结构体是x86体系结构下内核定义的一个结构体，这个结构体中按照顺序依次存放了系统调用的时候，硬件保存的现场的相关值，以及SAVE_ALL所对应的值，当然还有中断号也会被保存在这个结构体中。具体的，下文再继续分析。

二：分析

不管是clone、fork、还是vfork这三个系统调用都是对应的一个系统服务例程，那就是do_fork()函数。

我们贴上do_fork的内核代码：

long do_fork(unsigned long clone_flags,1624      unsigned long stack_start,1625      unsigned long stack_size,1626      int __user *parent_tidptr,1627      int __user *child_tidptr)1628{1629struct task_struct *p;1630int trace = 0;1631long nr;16321633/*1634 * Determine whether and which event to report to ptracer.  When1635 * called from kernel_thread or CLONE_UNTRACED is explicitly1636 * requested, no event is reported; otherwise, report if the event1637 * for the type of forking is enabled.1638 */1639if (!(clone_flags & CLONE_UNTRACED)) {1640if (clone_flags & CLONE_VFORK)1641trace = PTRACE_EVENT_VFORK;1642else if ((clone_flags & CSIGNAL) != SIGCHLD)1643trace = PTRACE_EVENT_CLONE;1644else1645trace = PTRACE_EVENT_FORK;16461647if (likely(!ptrace_event_enabled(current, trace)))1648trace = 0;1649}16501651p = copy_process(clone_flags, stack_start, stack_size,1652 child_tidptr, NULL, trace);1653/*1654 * Do this prior waking up the new thread - the thread pointer1655 * might get invalid after that point, if the thread exits quickly.1656 */1657if (!IS_ERR(p)) {1658struct completion vfork;1659struct pid *pid;16601661trace_sched_process_fork(current, p);16621663pid = get_task_pid(p, PIDTYPE_PID);1664nr = pid_vnr(pid);16651666if (clone_flags & CLONE_PARENT_SETTID)1667put_user(nr, parent_tidptr);16681669if (clone_flags & CLONE_VFORK) {1670p->vfork_done = &vfork;1671init_completion(&vfork);1672get_task_struct(p);1673}16741675wake_up_new_task(p);16761677/* forking complete and child started to run, tell ptracer */1678if (unlikely(trace))1679ptrace_event_pid(trace, pid);16801681if (clone_flags & CLONE_VFORK) {1682if (!wait_for_vfork_done(p, &vfork))1683ptrace_event_pid(PTRACE_EVENT_VFORK_DONE, pid);1684}16851686put_pid(pid);1687} else {1688nr = PTR_ERR(p);1689}1690return nr;1691}

1629行出现的一个task_struct指针，可以看到是通过copy_process()函数来完成赋值的，这个copy_process()函数，下面我还会介绍。这个task_struct *p，这个指针p也就是提到的新进程的进程描述符，对应的结构是这样子的task_struct。

接下来再贴一下copy_process()的代码：因为这个copy_process()代码太长，只贴一下部分代码吧：

1239retval = -ENOMEM;1240p = dup_task_struct(current);1241if (!p)

这里的dup_task_struct(current)就是为子进程获取进程描述符：

static struct task_struct *dup_task_struct(struct task_struct *orig)306{307struct task_struct *tsk;308struct thread_info *ti;309int node = tsk_fork_get_node(orig);310int err;311312tsk = alloc_task_struct_node(node); //这个宏是为新进程获取进程描述符，并将描述符地址保存在tsk中。313if (!tsk)314return NULL;315316ti = alloc_thread_info_node(tsk, node); //分配一块内存区域，放threadinfo以及内核栈，这个大小为8k

317if (!ti)318goto free_tsk;319320err = arch_dup_task_struct(tsk, orig);321if (err)322goto free_ti;323324tsk->stack = ti; //这时候就可以把新进程的进程描述符的stack指针指向刚刚分配的内存区域了，也就是ti325#ifdef CONFIG_SECCOMP326/*327 * We must handle setting up seccomp filters once we're under328 * the sighand lock in case orig has changed between now and329 * then. Until then, filter must be NULL to avoid messing up330 * the usage counts on the error path calling free_task.331 */332tsk->seccomp.filter = NULL;333#endif334335setup_thread_stack(tsk, orig);336clear_user_return_notifier(tsk);337clear_tsk_need_resched(tsk);338set_task_stack_end_magic(tsk);339340#ifdef CONFIG_CC_STACKPROTECTOR341tsk->stack_canary = get_random_int();342#endif343344/*345 * One for us, one for whoever does the "release_task()" (usually346 * parent)347 */348atomic_set(&tsk->usage, 2); //描述进程描述符正在被使用，而且处于Active的状态，所以置计数器为2349#ifdef CONFIG_BLK_DEV_IO_TRACE350tsk->btrace_seq = 0;351#endif352tsk->splice_pipe = NULL;353tsk->task_frag.page = NULL;354355account_kernel_stack(ti, 1);356357return tsk;358359free_ti:360free_thread_info(ti);361free_tsk:362free_task_struct(tsk);363return NULL;364}

接着来看copy_process()，

1394if (retval)1395goto bad_fork_cleanup_namespaces;1396retval = copy_thread(clone_flags, stack_start, stack_size, p);1397if (retval)

来看copy_thread()这个函数：

<pre name="code" class="plain">132int copy_thread(unsigned long clone_flags, unsigned long sp,133unsigned long arg, struct task_struct *p)134{135struct pt_regs *childregs = task_pt_regs(p);136struct task_struct *tsk;137int err;138139p->thread.sp = (unsigned long) childregs;140p->thread.sp0 = (unsigned long) (childregs+1);141memset(p->thread.ptrace_bps, 0, sizeof(p->thread.ptrace_bps));142143if (unlikely(p->flags & PF_KTHREAD)) {144/* kernel thread */145memset(childregs, 0, sizeof(struct pt_regs));146p->thread.ip = (unsigned long) ret_from_kernel_thread;147task_user_gs(p) = __KERNEL_STACK_CANARY;148childregs->ds = __USER_DS;149childregs->es = __USER_DS;150childregs->fs = __KERNEL_PERCPU;151childregs->bx = sp;/* function */152childregs->bp = arg;153childregs->orig_ax = -1;154childregs->cs = __KERNEL_CS | get_kernel_rpl();155childregs->flags = X86_EFLAGS_IF | X86_EFLAGS_FIXED;156p->thread.io_bitmap_ptr = NULL;157return 0;158}159*childregs = *current_pt_regs();160childregs->ax = 0;161if (sp)162childregs->sp = sp;163164p->thread.ip = (unsigned long) ret_from_fork;165task_user_gs(p) = get_user_gs(current_pt_regs());166167p->thread.io_bitmap_ptr = NULL;168tsk = current;169err = -ENOMEM;170171if (unlikely(test_tsk_thread_flag(tsk, TIF_IO_BITMAP))) {172p->thread.io_bitmap_ptr = kmemdup(tsk->thread.io_bitmap_ptr,173IO_BITMAP_BYTES, GFP_KERNEL);174if (!p->thread.io_bitmap_ptr) {175p->thread.io_bitmap_max = 0;176return -ENOMEM;177}178set_tsk_thread_flag(p, TIF_IO_BITMAP);179}180181err = 0;182183/*184 * Set a new TLS for the child thread?185 */186if (clone_flags & CLONE_SETTLS)187err = do_set_thread_area(p, -1,188(struct user_desc __user *)childregs->si, 0);189190if (err && p->thread.io_bitmap_ptr) {191kfree(p->thread.io_bitmap_ptr);192p->thread.io_bitmap_max = 0;193}194return err;195}

在发生fork系统调用的时候，cpu保存的寄存器的值，也就是ptreg这个结构体中的值用来初始化这个子进程的内核栈，我们还可以观察到：

childregs->ax = 0;

childregs->sp = sp;

p->thread.ip = (unsigned long) ret_from_fork;

上面三条执行语句分别描述了新进程的返回值也就是在eax中的值为0，esp为内核栈的esp，eip为ret_from_fork这个宏所对应的地址。

290ENTRY(ret_from_fork)291CFI_STARTPROC292pushl_cfi %eax293call schedule_tail294GET_THREAD_INFO(%ebp)295popl_cfi %eax296pushl_cfi $0x0202# Reset kernel eflags297popfl_cfi298jmp syscall_exit299CFI_ENDPROC300END(ret_from_fork)

可以看到，ret_from_fork中调用schedule_tail函数也就是调度函数，完成进程的切换，jmp syscall_exit就是退出系统调用，开始返回用户态。
三、总结

通过上面的分析，我们可以看到，在dofork之后，就紧接着创建新进程的进程描述符以及子进程执行所需要的其他内核数据结构，也就是copy_process函数里所做的东西。由于将父进程的当前堆栈都拷贝到了子进程的堆栈中，在上述分析中，当子进程的进程描述符中的已经将eip、esp以及各寄存器和内核栈、数据段的值都准备好了，进程调度之后，便可以开始执行子进程了。

0 0