CentOS 5.x和CentOS 6.x限制单个用户线程数上限的不同行为

来源:互联网 发布:js字符串数字相加 编辑:程序博客网 时间:2024/05/17 02:26

在使用HiveServer的过程中,通过一个Java程序向其并发提交多个Job,我们发现在同时提交的任务较多的时候,程序就会莫名其妙地卡住,并报出内存溢出(OOM)的错误,但是经过排查,系统还有数十GB的内存处于FREE状态,JVM的内存上限也非常大,所以可以断定问题的原因并不是因为内存不够,而有其它原因。


根据以往的经验,我们在部署服务器的时候,会设置一个系统最大打开文件数量和系统最大进程(线程)数,这个值我们在root用户下做了如下设置(设置在/etc/security/limits.conf文件中):

*                -       nproc           1024000*                -       nofile          1024000

这样的话,root用户能开启的最大进程(线程)数量就是1024000。但是这个设置能否继承到其它用户的设置上却在CentOS 5.8与CentOS 6.4之间有了差别:


首先,在CentOS 5.8上:


[root@monet00 ~]# useradd testuser[root@monet00 ~]# su - testuser[testuser@monet00 ~]$ ulimit -u1024000[testuser@monet00 ~]$ ulimit -u1024000

可以看到,新增加的用户成功继承了root设置的系统设置。


然后,在CentOS 6.4上却是:

[root@etl-1 ~]# useradd testuser[root@etl-1 ~]# su - testuser[testuser@etl-1 ~]$ ulimit -u1024

就是因为这个原因,我们在6.4版本的CentOS上,虽然设置了系统的最大线程数是1024000,但是对于运行HiveServer的hive用户而言,它能够开启最大进程(线程)数仍然是默认的1024个,这样就导致,任务提交比较密集的时候,会出现莫名其妙的失败。至于解决办法,就是加入以下配置,明确对hive用户的配置:


hive   - nofile 1024000hive   - nproc  1024000

这样,在我们放大了提交JOB的并行压力之后,系统也能够完美地运行成功。


从这件事情上可以看出,经验固然重要,但是不能把自己关在这些经验构筑的笼子中,必须常怀怀疑的态度,做完工作之后,一定要再次检查,确保达到我们想要的效果。


0 0
原创粉丝点击