linux内核页表

来源：互联网发布：java rest api 编辑：程序博客网时间：2024/04/29 10:43

曾几何时，我一直被迷惑着，我知道所有进程和所有内核线程共享内核页表，也就是在页全局目录的768项以上的目录项指向的页表，我一直以为在创建新的进程的时候创建新进程的页全局目录的时候会连带的把内核的基础全局目录复制过去，实际上这是合理的，当我看到网上很多文章都这么说时，我似乎感到一种欣慰：我太有才了！但是当我读到2.6.17的源代码时，梦被打碎了，在pgd_alloc里面没有上述的动作,代码如下：

pgd_t *pgd_alloc(struct mm_struct *mm)
{
int i;
pgd_t *pgd = quicklist_alloc(0, GFP_KERNEL, pgd_ctor);
if (PTRS_PER_PMD == 1 || !pgd)
return pgd;
for (i = 0; i < UNSHARED_PTRS_PER_PGD; ++i) {
pmd_t *pmd = pmd_cache_alloc(i);
if (!pmd)
goto out_oom;
paravirt_alloc_pd(__pa(pmd) >> PAGE_SHIFT);
set_pgd(&pgd[i], __pgd(1 + __pa(pmd)));
}
return pgd;
out_oom:
for (i--; i >= 0; i--) {
pgd_t pgdent = pgd[i];
void* pmd = (void *)__va(pgd_val(pgdent)-1);
paravirt_release_pd(__pa(pmd) >> PAGE_SHIFT);
pmd_cache_free(pmd, i);
}
quicklist_free(0, pgd_dtor, pgd);
return NULL;
}
我们看到，仅仅初始化了768之前的页目录项，没有内核页目录的踪迹，怎么回事呢？网上的那么多文章的依据又是什么呢？迷茫中，我想到了版本问题，于是我查阅了2.4的系列内核源代码，果然是那么回事：
172 pgd_t *pgd_alloc(struct mm_struct *mm)
{
int i;
pgd_t *pgd = kmem_cache_alloc(pae_pgd_cachep, GFP_KERNEL);
if (pgd) {
unsigned long pmd;
for (i = 0; i < USER_PTRS_PER_PGD; i++) {
pmd = __get_free_page(GFP_KERNEL);
if (!pmd)
goto out_oom;
clear_page(pmd);
set_pgd(pgd + i, __pgd(1 + __pa(pmd)));
}
memcpy(pgd + USER_PTRS_PER_PGD,
swapper_pg_dir + USER_PTRS_PER_PGD,
(PTRS_PER_PGD - USER_PTRS_PER_PGD) * sizeof(pgd_t));
}
return pgd;
out_oom:
for (i--; i >= 0; i--)
free_page((unsigned long)__va(pgd_val(pgd[i])-1));
kmem_cache_free(pae_pgd_cachep, pgd);
return NULL;
}
看起来比２．６的内核长很多，这么做合理是合理，但是有必要吗？用户进程真的会那么频繁的进入内核从而访问内核吗？想想malloc库函数，再想想库提供用户io缓冲区，如果你没有研究过前面的两个，那么mmap总该知道吧，为什么要用到前面的库函数，而且他们的库级别实现非常复杂，有自己的一套策略，有何诱惑可以值得库设计者付出这么大的代价呢？究其原因就是为了尽可能少的进行系统调用从而进入内核空间，要知道计算机的目的是为人服务，为人服务就是运行用户的程序，也就是用户进程，并不是为了让人去研究操作系统，操作系统内核只是提供服务，进行全局统筹管理，遗憾的是，他和用户进程是共享
处理器资源的，这就要求它必须在最短的时间内完成自己的任务，全程只需分清一个主次关系，用户进程为主，内核运行为辅，用户不求助，内核别插手用户事务，只有当用户真正要内核时，内核再挺身而出，这样就把内核事务拖到了不能再拖为止，于是乎再拷掠前面的问题时我想到了缺页中断，下面看看缺页中断是怎么处理的：
asmlinkage void do_page_fault(struct pt_regs *regs, unsigned long error_code)
{
......
if (unlikely(address >= TASK_SIZE)) {
if (!(error_code & 5))
goto vmalloc_fault;
......
vmalloc_fault:
{
......
int index = pgd_index(address);//得到缺页地址应该所在的页全局目录的目录项索引
pgd_t *pgd, *pgd_k;
pmd_t *pmd, *pmd_k;
pte_t *pte_k;
asm("movl %%cr3,%0":"=r" (pgd));//读出当前进程的页全局目录的位置
pgd = index + (pgd_t *)__va(pgd);//得到具体的对应于缺页地址的目录项
pgd_k = init_mm.pgd + index;//swapper_pgd_dir中队应的目录项
if (!pgd_present(*pgd_k))//如果swapper_pgd_dir模板中都没有，准备后事吧
goto no_context;//善后
......
pmd = pmd_offset(pgd, address);//以下的分析方法同上
pmd_k = pmd_offset(pgd_k, address);
if (!pmd_present(*pmd_k))
goto no_context;//善后
set_pmd(pmd, *pmd_k);
pte_k = pte_offset_kernel(pmd_k, address);//内核和用户进程共享内核页表，因此以下也就没有set_pmd(pmd, *pmd_k)之类的了
if (!pte_present(*pte_k))
goto no_context;
return;//最终引起缺页的地址的MMU元素被创建，访问重新开始
}
}

以上的分析应该很明了了，在此再小声说一句，网上的文章只是作者的理解，仅仅可以帮你理解问题，真正解决问题，你还得自己来，比如读内核，你必须自亲自阅读才能悟道。

注：本文中只关注kmalloc部分，不关注直接映射的部分，理解时应该从该角度理解；

来源：http://blog.csdn.net/dog250/article/details/5303051

0 0