系统调用之一：进入与退出

来源：互联网发布：淘宝显示月销量编辑：程序博客网时间：2024/05/21 20:28

一系统调用和API

在LINUX编程中，我们经常会用到open/write/read等一些函数，那么这些函数是什么呢？它们和C语言中经常用的memcpy之类的函数接口有什么区别呢？

一般我们将open等函数称为系统调用，它通过一个软件中断向linux内核发出一个明确的功能请求，由内核完成具体的功能实现。而memcpy等接口被称为API，它定义一个实现特定服务功能的函数，一个API不必对应一个特定的系统调用，最重要的，API可以在用户态直接提供它的功能。一个API可以调用多个系统调用，多个API接口可以使用一个系统调用，例如malloc()/calloca()/free()接口都使用brk()系统调用来增大或者缩减进程的堆。

当然，作为一个应用程序开发者，并不需要关心上述两者的区别，然而对于你一个内核的设计者，则必须关注。

二系统调用流程和服务例程

当系统调用发生的时候，linux需要从用户态切换到内核态，在80x86架构中，有两种方式实现用户态到内核态的切换，然而这两种方式最终都跳转到系统调用处理。此外，由于内核实现了许多不同的系统调用，因而用户进程必须传递一个系统调用号以表明它们需要调用哪个系统调用,LINUX用EAX寄存器来进行系统号的传递，系统调用还需要传递其他参数，我们在后文中再进行详细阐述。最后当系统调用返回后，如果有错误发生，wrapper routines会设置error变量以表明具体的错误。

系统调用处理流程和内核异常处理流程类似，为：

保存大部分CPU寄存器的值到内核栈中（这部分对所有的系统调用是公共的，而且使用汇编语言编写）
通过系统调用服务例程处理系统调用
恢复CPU寄存器的值

大部分服务例程的名字和系统调用的名字相关，比如系统调用为ABC(),则系统调用服务例程的名字为sys_ABC()。

前文已述，在系统调用的时候，需要传递一个系统调用号，根据这个系统调用号，linux在sys_call_table数组中查找该系统调用号对应的服务例程。sys_call_table的数组大小为NR_syscalls，数组的每项代表服务例程的地址。NR_syscalls并不表示系统实现了多少系统调用，而仅仅表示可实现多少系统调用，没有实现的系统调用可以在数组对应表项中指定其服务例程为sys_ni_syscall()。

三进入与退出系统调用

在INTEL架构中，应用程序可以通过两种方式使用或退出系统调用：

INT 0x80 汇编指令进入，iret指令退出
sysenter汇编指令进入， sysexit汇编指令退出。linux2.6内核支持，Pentium II 引入该指令。

当然，对于两种方式的使用必然存在兼容问题。比如KENEL 必须支持这两种方式；使用sysenter的标准库必须能够和使用INT 80的老内核兼容，等等。

3.1 通过INT 0x80进行系统调用

linux系统在初始化的时候，通过trap_init()接口安装0x80中断处理例程，并表明系统调用时不需要禁止maskable的中断：

set_system_gates(0x80,&system_call);

初始化完后，当用户态进程使用INT 0x80指令时，CPU会切换到内核模式并从system_call开始执行代码。

system_call()首先保存除eflags,cs,eip,ss,esp之外的CPU寄存器，同时将当前进程的thread_info信息保存到ebx寄存器中；接着，该函数检查thread_info的flags是否设置了TIF_SYSCALL_TRACE或者TIF_SYSCALL_ADUIT，如果设置了其中某个，则表示该进程当前被DEBUG程序跟踪，system_call会分别在刚执行服务例程之前和刚执行完服务例程的时候各调用一次do_syscall_trace()接口，停止当前进程，以便DEBUG程序收集当前进程的信息。

而后，system_call()会检查用户态传进来的系统调用号是否超过了最大的系统号，是否实现。如果实现，通过以下语句调用相应的服务例程，否则返回-ENOSYS错误。

/* %eax中保存系统调用号 */call *sys_call_table(0,%eax,4);

当系统服务例程结束之后，system_call()函数从eax寄存器中获取返回码，因此，用户模式的进程可以获取系统调用的返回码。然后system_call()函数禁止本地中断并且检查当前进程thread_info的flags ，如果没有标志被设置，那么函数跳到restore_all，否则，如果任何一个标志被设置，则在返回到用户模式之前，system_call函数需要做些相关的处理工作，例如前面提及的TIF_SYSCALL_TRACE。

3.2 通过sysenter进行系统调用

由于需要执行一致性和安全性检查，INT汇编指令很慢，而sysenter 指令提供了一种从用户态到内核态快速切换的手段。

sysenter指令主要依赖三个特殊的寄存器：

SYSENTER_CS_MSR: kernel代码段的段选择寄存器。

SYSENTER_EIP_MSR:kernel入口的线性地址

SYSENTER_ESP_MSR:kernel栈指针

当执行sysenter的时候，上述寄存器里面的值被分别拷贝到cs/eip/esp寄存器中，并将CS+8的值拷贝到ss寄存器，因而CPU切换到内核模式并执行内核入口的第一条指令。

除了进入内核的方式，通过sysenter进入相关的系统调用和int 80 基本相同，包括系统调用号的传递和flags标志的检测等。只是，由于引入了该指令，需要和INT 80做兼容，因而在调用sysenter之前，需要考虑这种兼容性。

linux中使用vsyscall page的概念来完成这种兼容性。这里假设内核已经支持sysenter指令。

在系统初始化的时候，通过sysenter_setup()接口申请一页，该页通过FIX_VSYSCALL fix-mapped 进行线性地址映射，同时该页中包含的是动态链接的代码。当CPU不支持 sysenter时，则链接int 80,否则链接sysenter，两者都以接口__kernel_vsyscall出现。即提供一个虚拟的系统调用入口，根据CPU的具体情况执行具体的代码。

系统调用之一：进入与退出

一 系统调用和API

二 系统调用流程和服务例程

三 进入与退出系统调用

3.1 通过INT 0x80进行系统调用

3.2 通过sysenter进行系统调用

一系统调用和API

二系统调用流程和服务例程

三进入与退出系统调用