oom原理分析

来源：互联网发布：js如何显示表单内容编辑：程序博客网时间：2024/06/08 11:24

OOM原理分析

12/30. 2013

OOM全称是Out Of Memory，指的是kernel因分配不出内存而报的错误，同时会触发kernel调用OOM killer杀进程来解除这种状况。

OOM发生的条件一般有两个：

1. VM里面分配不出更多的page（注意linux kernel是延迟分配page策略，及用到的时候才alloc；所以malloc + memset才有效）。
2. 用户地址空间不足，这种情况在32bit机器上及user space超过了3GB，在64bit机器上不太可能发生。

下面通过分析kernel中oom_kill.c代码来了解一下OOM的机制。OOM在kernel中对应的函数有两个：out_of_memory()和pagefault_out_of_memory()，最终调用的都是__out_of_memory()。

__out_of_memory()做两件事情：
1. 调用select_bad_process选择一个要kill的进程；
2. 调用oom_kill_process杀死select出来的进程。

select_bad_process函数扫描整个进程列表：
1) 跳过kernel thread、没有占用mem的进程、INIT进程、以及被设置为OOM_DISABLE的进程；可以通过设置进程的 /proc/<pid>/oom_adj 来调整oom_adj的值，oom_adj范围是[-17, 15]，值越大越容易被oom kill掉，设为OOM_DISABLE（-17）的进程不会被oom。

2) 对其它的进程调用badness()函数来计算相应的score，score最高的将被选中。badness()函数计算score (points)的因子有下面几个：

a) score起始为该进程占用的total_vm；
points = mm->total_vm;

b) 如果该进程有子进程，子进程独自占用的total_vm/2加到本进程score；
points += child->mm->total_vm/2 + 1;

c) score和进程的cpu_time以及run_time成反比；
points /= int_sqrt(cpu_time);
points /= int_sqrt(int_sqrt(run_time));

d) nice大于0的进程，score翻倍；
if (task_nice(p) > 0) points *= 2;

e) 对设置了超级权限的进程和直接磁盘交互的进程降低score；
if (CAP_SYS_ADMIN | CAP_SYS_RESOURCE | CAP_SYS_RAWIO) points /= 4;

f) 如果和current进程在内存上没有交集的进程降低score；
if (!has_intersects_mems_allowed(p)) points /= 8;

g) 最后是根据该进程的oom_adj计算最终的score；
points <<= abs(oom_adj);

oom_kill_process函数的功能很简单，就一句话：

force_sig(SIGKILL, p);

可以看到发的是SIGKILL信号，其实就是执行kill -9 pid，因为SIGKILL是不能被捕获的。

可以通过下面两个参数来配置OOM策略：
/proc/sys/vm/overcommit_memory
/proc/sys/vm/overcommit_ratio

overcommit_memory取值为[0-2]:
0：表示按启发模式进行overcommit（可以提交超过物理内存大小的alloc page申请），也是默认的设置；
1：表示总是允许overcommit，这种模式最容易触发oom；
2：表示不能overcommit。这种模式下，最大的User Space限制在：SS + RAM*(r/100)，SS是swap大小，r就是overcommit_ratio设置的值，范围为：[0-100]。

有一种mem_notify的机制在内存不足时可以给应用进程发信号，让应用进程去释放内存，如果不能释放再调用oom killer，但在linux 2.6.28以后的版本都不能用了，所以避免OOM还是做好应用的内存管理以及监控。

Linux 内核有个机制叫OOM killer（Out-Of-Memory killer），该机制会监控那些占用内存过大，尤其是瞬间很快消耗大量内存的进程，为了防止内存耗尽而内核会把该进程杀掉。典型的情况是：某天一台机器突然ssh远程登录不了，但能ping通，说明不是网络的故障，原因是sshd进程被 OOM killer杀掉了（多次遇到这样的假死状况）。重启机器后查看系统日志/var/log/messages会发现 Out of Memory: Kill process 1865（sshd）类似的错误信息。

防止重要的系统进程触发(OOM)机制而被杀死：可以设置参数/proc/PID/oom_adj为-17，可临时关闭linux内核的OOM机制。内核会通过特定的算法给每个进程计算一个分数来决定杀哪个进程，每个进程的oom分数可以/proc/PID/oom_score中找到。我们运维过程中保护的一般是sshd和一些管理agent。

保护某个进程不被内核杀掉可以这样操作：

点击(此处)折叠或打开

echo -17 > /proc/$PID/oom_adj

如何防止sshd被杀，可以这样操作：

点击(此处)折叠或打开

pgrep -f "/usr/sbin/sshd" | while read PID;do echo -17 > /proc/$PID/oom_adj;done

可以在计划任务里加入这样一条定时任务，就更安全了：

点击(此处)折叠或打开

#/etc/cron.d/oom_disable

*/1**** root pgrep -f "/usr/sbin/sshd" | while read PID;do echo -17 > /proc/$PID/oom_adj;done

为了避免重启失效，可以写入/etc/rc.d/rc.local

点击(此处)折叠或打开

echo -17 > /proc/$(pidof sshd)/oom_adj

至于为什么用-17而不用其他数值（默认值为0），这个是由linux内核定义的，查看内核源码可知：
以linux- 3.3.6版本的kernel源码为例，路径为linux-3.6.6/include/linux/oom.h，阅读内核源码可知oom_adj的可调值为15到-16，其中15最大-16最小，-17为禁止使用OOM。oom_score为2的n次方计算出来的，其中n就是进程的oom_adj值，所以oom_score的分数越高就越会被内核优先杀掉。

当然还可以通过修改内核参数禁止OOM机制