Linux内核分析（八）

来源：互联网发布：虚拟社交网络正方攻辩编辑：程序博客网时间：2024/06/04 20:10

原创作品转载请注明出处

《Linux内核分析》MOOC课程http://mooc.study.163.com/course/USTC-1000029000

==========================================================================

最后一周实验是关于进程的切换和调度时机。操作系统原理中介绍了大量进程调度算法，这些算法从实现的角度看仅仅是从运行队列中选择一个新进程，选择的过程中运用了不同的策略而已。对于理解操作系统的工作机制，反而是进程的调度时机与进程的切换机制更为关键。

进入实验楼开始实验，gdb跟踪调试schedule()函数的处理过程:

1.打开实验楼虚拟机

2.在shell中依次运行以下命令

 cd LinuxKernel rm menu -rf   git clone https://github.com/mengning/menu.git  cd menu   mv test_exec.c test.c  make rootfs

3.关闭QEMU窗口，在shell窗口中cd LinuxKernel回到LinuxKernel目录,用下面命令启动内核并在CPU运行代码前停下以便调试：

  qemu -kernel linux-3.18.6/arch/x86/boot/bzImage -initrd rootfs.img -s -S

接下来水平分割一个新的shell窗口，使用下面命令启动gdb调试

 gdb  file linux-3.18.6/vmlinux  target remote:1234

在内核函数schedule入口处设置断点，c继续执行即可停在该函数处，接下来可以使用命令n或s逐步跟踪，详细浏览

pick_next_task、switch_to等函数的执行过程

整个schedule的执行过程如下图所示
　|———————————-|
　schedule
　　sched_submit_work(tsk)
　　_schedule()
　　　　pick_next_task
　　　　context_switch(rq,prev,next)
　　　　　　prepare_task_switch
　　　　　　判断是不是内核线程
　　　　　　switch_mm
　　　　　　switch_to
　　　　　　　　_switch_to
　　　　　　finish_task_switch

分析：
进程调度的时机
1)中断处理过程（包括时钟中断、I/O中断、系统调用和异常）中，直接调用schedule()，或者返回用户态时根据
need_resched标记调用schedule()；
2)内核线程可以直接调用schedule()进行进程切换，也可以在中断处理过程中进行调度，也就是说内核线程作为一类的特殊的进程可以主动调度，也可以被动调度；
3)用户态进程无法实现主动调度，仅能通过陷入内核态后的某个时机点进行调度，即在中断处理过程中进行调度。

进程的切换
为了控制进程的执行，内核必须有能力挂起正在CPU上执行的进程，并恢复以前挂起的某个进程的执行，这叫做进程切换、任务切换、上下文切换；挂起正在CPU上执行的进程，与中断时保存现场是不同的，中断前后是在同一个进程上下文中，只是由用户态转向内核态执行。进程上下文包含了进程执行需要的所有信息：
1）用户地址空间：包括程序代码，数据，用户堆栈等
2）控制信息：进程描述符，内核堆栈等
3）硬件上下文（注意中断也要保存硬件上下文只是保存的方法不同）
schedule()函数选择一个新的进程来运行，并调用context_switch进行上下文的切换，这个宏调用switch_to来进行关键上下文切换。
next = pick_next_task(rq, prev); // 进程调度算法都封装这个函数内部
context_switch(rq, prev, next); // 进程上下文切换
switch_to利用了prev和next两个参数：prev指向当前进程，next指向被调度的进程

#define switch_to(prev, next, last)                    \  do {                                 \    /*                              \    * Context-switching clobbers all registers, so we clobber  \    * them explicitly, via unused output variables.     \    * (EAX and EBP is not listed because EBP is saved/restored  \    * explicitly for wchan access and EAX is the return value of   \    * __switch_to())                     \    */                                \    unsigned long ebx, ecx, edx, esi, edi;                \                                    \    asm volatile("pushfl\n\t"      /* save    flags */   \             "pushl %%ebp\n\t"        /* save    EBP   */ \             "movl %%esp,%[prev_sp]\n\t"  /* save    ESP   */ \             "movl %[next_sp],%%esp\n\t"  /* restore ESP   */ \             "movl $1f,%[prev_ip]\n\t"    /* save    EIP   */ \             "pushl %[next_ip]\n\t"   /* restore EIP   */    \             __switch_canary                   \             "jmp __switch_to\n"  /* regparm call  */ \             "1:\t"                        \             "popl %%ebp\n\t"     /* restore EBP   */    \             "popfl\n"         /* restore flags */  \                                    \             /* output parameters */                \             : [prev_sp] "=m" (prev->thread.sp),     \               [prev_ip] "=m" (prev->thread.ip),        \               "=a" (last),                 \                                    \               /* clobbered output registers: */     \               "=b" (ebx), "=c" (ecx), "=d" (edx),      \               "=S" (esi), "=D" (edi)             \                                         \               __switch_canary_oparam                \                                    \               /* input parameters: */                \             : [next_sp]  "m" (next->thread.sp),        \               [next_ip]  "m" (next->thread.ip),       \                                         \               /* regparm parameters for __switch_to(): */  \               [prev]     "a" (prev),              \               [next]     "d" (next)               \                                    \               __switch_canary_iparam                \                                    \             : /* reloaded segment registers */           \            "memory");                  \  } while (0)

其中，switch_to是一个宏定义，完成的工作主要是：

1）保存当前进程的flags状态和当前进程的ebp

　　"pushfl\n\t" // save flags

　　"pushl %%ebp\n\t" // save EBP

2）完成内核堆在esp的切换

　　 "movl %%esp,%[prev_sp]\n\t" // save ESP

　　 "movl %[next_sp],%%esp\n\t" // restore ESP

3）保存eip的值

　　"movl $1f,%[prev_ip]\n\t" // save EIP

　　"pushl %[next_ip]\n\t" // restore EIP

　　将标号1:的地址保存到prev->thread.ip中，然后下一次该进程被调用的时候，就从１的位置开始执行。

　　注明：如果之前next也被switch_to出去过，那么next->thread.ip里存的就是下面这个1f的标号，但如果next进程刚刚被创建，之前没有被switch_to出去过，那么next->thread.ip里存的将是ret_ftom_fork，即进程刚刚被fork后执行exec．

4）jmp __switch_to // 让参数不压入堆栈，而是使用寄存器传值，来调用__switch_to eax存放prev,edx存放next

总结：

Linux中进程切换的一般步骤为：

1）检测当前进程的状态，挂起当前进程的IO请求以防止死锁

2）获取当前运行CPU，以及它的可运行进程队列

3）从进程队列中获取当前进程的task_struct，并通过进程调度算法从队列中选择一个合适的进程作为待调入进程

4）检测待调入进程的状态以确保其正确性

5）使用switch_to宏来进行当前进程与待调入进程的切换（期间完成新进程的资源准备工作）

6）新进程完成schedule()，结束整个进程切换过程

最一般的情况：正在运行的用户态进程X切换到运行用户态进程Y的过程

正在运行的用户态进程X发生中断——save cs:eip/esp/eflags(current) to kernel stack then load cs:eip(entry of a specific ISR) and ss:esp(point to kernel stack)

SAVE_ALL // 保存现场
中断处理过程中或中断返回前调用了schedule()，其中的switch_to做了关键的进程上下文切换
标号1之后开始运行用户态进程Y(这里Y曾经通过以上步骤被切换出去过因此可以从标号1继续执行)
restore_all // 恢复现场
iret - pop cs:eip/ss:esp/eflags from kernel stack
继续运行用户态进程Y

几种特殊情况：

1)通过中断处理过程中的调度时机，用户态进程与内核线程之间互相切换和内核线程之间互相切换，与最一般的情况非常类似，只是内核线程运行过程中发生中断没有进程用户态和内核态的转换；

2)内核线程主动调用schedule()，只有进程上下文的切换，没有发生中断上下文的切换，与最一般的情况略简略；

3)创建子进程的系统调用在子进程中的执行起点及返回用户态，如fork；

4)加载一个新的可执行程序后返回到用户态的情况，如execve；

0 0