Centos7安装-多节点Torque

来源:互联网 发布:上海mac电磁阀官网 编辑:程序博客网 时间:2024/05/16 16:19

Centos7安装-多节点Torque

1 简介

PBS(Portable Batch System)最初由NASA的Ames研究中心开发,主要为了提供一个能满足异构计算网络需要的软件包,用于灵活的批处理,特别是满足高性能计算的需 要,如集群系统、超级计算机和大规模并行系统。

PBS的目前包括openPBS, PBS Pro和Torque三个主要分支. 其中OpenPBS是最早的PBS系统, 目前已经没有太多后续开发,PBS pro是PBS的商业版本, 功能最为丰富. Torque是Clustering公司接过了OpenPBS, 并给与后续支持的一个开源版本.

应用PBS提交任务则会形成任务队列,依次执行,有效分配资源,避免资源竞争。否则CPU时间片会轮流分配给各个人的任务,从而影响所有人的正常作业。

torque主要由三个主要部件组成:

PBS服务守护进程: pbs_server 负责接收作业提交,位于服务节点

PBS调度守护进程: pbs_sched 负责调度作业,位于服务节点

PBS MOM守护进程: pbs_mom 负责监控本机并执行作业,位于所有计算节点

更多请看官网:adaptivecomputing.,源码

2 建立SSH无密码访问

因为节点之间要进行数据传输和任务分发,所以要各个节点之间要建立ssh无密码访问。网上资料很多,不多说,可以参考:如何配置 SSH 免密码登录

3 安装

安装信息

名称 版本 下载 系统 CentOS-7-x86_64-DVD-1708 点击这里 Torque torque-6.1.1.1.tar 点击这里

节点信息

主机名 IP master 192.168.64.51 salve1 192.168.64.52 salve2 192.168.64.53

在master安装所有组建,作为主节点,所有计算节点上安装pbs_mom和PBS客户端trqauthd,这里添加了一个计算节点salve1和salve2,可以自行添加多个计算节点,安装3.2 安装salves节点进行添加

3.1 安装master节点

安装

#解压$tar -zxvf torque-6.1.1.1.tar#下载依赖环境和相关库文件$yum install -y libxml2-devel openssl-devel gcc gcc-c++ boost-devel libtool    $cd torque-6.1.1.1#设置安装配置信息$./configure --prefix=/usr/local/torque --with-scp --with-default-server=master#编译、安装,打包$make && make install && make packages#将contrib/init.d/目录下的pbs_server、pbs_sched、pbs_mom、trqauthd添加到系统初始化简脚本/etc/init.d/中,并设置为开机启动。$cp contrib/init.d/{pbs_{server,sched,mom},trqauthd} /etc/init.d/$for i in pbs_server pbs_sched pbs_mom trqauthd; do chkconfig --add $i; chkconfig $ion; done#设置环境变量$TORQUE=/usr/local/torque  $echo "TORQUE=$TORQUE" >>/etc/profile$echo "export PATH=\$PATH:$TORQUE/bin:$TORQUE/sbin" >>/etc/profile$source /etc/profile#设置TORQUE的管理用户,设置为非root用户$./torque.setup user1#启动pbs_server、pbs_sched、pbs_mom、trqauthd几个服务$qterm$for i in pbs_server pbs_sched pbs_mom trqauthd; do service $i start; done

开启pbs服务

备注:**pbs开启、停止、重启和查看状态

$for i in pbs_server pbs_sched pbs_mom trqauthd; do service $i start; done$for i in pbs_server pbs_sched pbs_mom trqauthd; do service $i stop; done$for i in pbs_server pbs_sched pbs_mom trqauthd; do service $i status; done或者$ /etc/init.d/pbs_server start|stop|status  $ /etc/init.d/pbs_sched start|stop|status  $ /etc/init.d/pbs_mom start|stop|status  $ /etc/init.d/trqauthd start|stop|status

配置

#添加计算节点,创建/var/spool/torque/server_priv/nodes,写入master,设置每个节点的cpu个数$vi /var/spool/torque/server_priv/nodesmaster np=4#添加计算节点,master也可以作为计算节点#创建/var/spool/torque/mom_priv/config文件$vi /var/spool/torque/mom_priv/config#并写入如下内容:$pbsserver master  $logevent 255$pbsserver master$logevent 255

查看启动信息

#启动torque,查看torque启动状态$ps -e | grep pbs$for i in pbs_server pbs_sched pbs_mom trqauthd; do service $i restart; done$查看节点状况,状态为free则正常$qnodes        #或者是pbsnodes –a

查看启动信息

测试

#新建user1用户$adduser user1$su user1$echo sleep 7 | qsub#查看作业分配和状态$qstat –a –n            

在master上提交运行作业

3.2 安装salves节点

添加计算节点salve1

建立masterhe salve1的ssh无密码访问

#将master节点下torque-6.1.1.1的torque-package*文件copy到salve1节点torque6中$scp torque-package-{mom,clients}-linux-x86_64.sh salve1:torque6#将master节点下torque-6.1.1.1的contrib/init.d/{pbs_mom,trqauthd}文件copy到salve1节点/etc/init.d/$scp contrib/init.d/{pbs_mom,trqauthd} salve1:/etc/init.d/#安装拷贝文件$./torque-package-clients-linux-x86_64.sh --install  $./torque-package-mom-linux-x86_64.sh --install  #创建/var/spool/torque/mom_priv/config文件$vi /var/spool/torque/mom_priv/config#并写入如下内容: $pbsserver master  $logevent 225$pbsserver master$logevent 255#将pbs_mom和trqauthd设置开机启动$for i in pbs_mom trqauthd; do chkconfig --add $i; chkconfig $ion; done#将计算节点加入到服务节点master中,切换到master节点#编辑/var/spool/torque/server_priv/nodes文件并写入如下内容salve1 np=4#启动salve1节点的pbs_mom$for i in pbs_mom trqauthd; do service $i start; done#查看新增计算节点salve1$qnodes

查看新增计算节点salve1

至此,计算节点salve1添加完毕!

**测试**salve1

#在计算节点salve1添加非root用户,和master节点要提交作业的用户一致,保持UID和GID相同,因为torque调度不允许root用户,在各节点上建立相同用户名及uid帐号$adduser user1#切换都master,使用非root用户user1测试提交作业$ssh master$su user1$echo sleep 7 | qsub#查看作业分配和状态$qstat –a –n 

添加计算节点salve2

和添加计算节点salve1一样,建立ssh互信,安装pbs_mom和trqauthd服务,设置开机启动,并添加到master的调度计算node配置文件中,开启其服务,创建提交用户和master、salve1一致

测试

$ssh master$su user1$echo sleep 7 | qsub$qstat -an#追踪某个作业$tracejob 47.master

测试

追踪作业47.master

3.3 安装maui

torque默认情况下使用pbs_sched管理,但对于用户权限的设置,可以使用Maui辅助

#官网注册下载maui,解压$tar -zxvf maui-3.3.1.tar.gz$cd maui-3.3.1$./configure --prefix=/usr/local/maui --with-pbs=/usr/local/torque#修改/src/moab/MPBSI.c---将< extern int get_svrport(const char *,char *,int);< extern int openrm(char*,int);---改成> extern unsigned int get_svrport(char *,char*,unsigned int);> extern int openrm(char *,unsigned int);#编译安装$make && make install#服务节点上配置 Maui#修改/usr/local/maui/maui.cfg,修改后如下所示SERVERHOST            master# primary admin must be first in listADMIN1                root# Resource Manager DefinitionRMCFG[MASTER] TYPE=PBS@RMNMHOST@RMTYPE[0] PBS#Maui启动设置#在Maui的解压目录里,修改/contrib/service-scripts/redhat.maui.dMAUI_PREFIX=/usr/local/maui             #将其改为了Maui的安装目录daemon --user root $MAUI_PREFIX/sbin/maui  #将用户名改为root#保存退出,将其拷贝到/etc/init.d/目录中,并改名和加可执行权限$cp  /contrib/service-scripts/redhat.maui.d  /etc/init.d/maui$chmod  +x  /etc/init.d/maui#之后就可以通过这个脚本启动、停止maui了$/etc/init.d/maui  start      #启动maui$/etc/init.d/maui  status     #查看maui开启状态$/etc/init.d/maui  restart    #重启maui$/etc/init.d/maui  stop       #停止maui#将maui加入开机自启动$echo “/etc/init.d/maui  start”  >> /etc/rc.local

启动maui

4 安装可能遇到的问题

1 在查看pbsnodes时出现MSG=node

pbsnodes: Server has no node list MSG=node list is empty - check 'server_priv/nodes' file
执行:qterm ,再重新启动pbs服务

2 节点down或者unavailable

查看节点时,节点一直是down或者unavailable,关闭防火墙,检查添加对于计算节点的配置,确保可以ssh切换,还有就是确保各个节点的服务都启动。

3 Bad UID for job execution MSG=Mom rejected the job.

在提交作业是,计算节点salve1和salve1添加后显示为free,但是提交作业时,作业只在master上执行,查看日志,显示提交给salve1的作业一直为“unable to run job, send to MOM '192.168.64.52' failed”,在追溯到server的日志,说是“unable to run job, MOM rejected/timeout,Reject reply code=15025(Bad UID for job execution MSG=Mom rejected the job.)”,一开始以为需要添加非root用户ssh互联,各个节点的时区和时间要一致,但问题还是没有解决。

过了一两天看到有人在提到,需要在计算节点添加一致的非root用户,使其有一样的uid和gid,结合日志的错误信息Bad UID,然后分别在不同的计算节点添加一致的user后,执行提交作业,作业可以顺利提交到不同的节点上执行了。我觉得是原因是:pbs提交任务要在master的非root用户下,不同节点直接已经ssh互联,用master上的user1提交后,作业分发只分发到节点中相同用户,没有从用户的话,mom就无法执行此作业。

参考资料

1 CentOS下torque集群配置(一)-torque安装与配置

2 98torque使用指南:一些遇到的问题

3 Torque和Maui的安装及PBS常用命令

4 作业提交系统Torque——个人安装总结(PBS)


​ 2017-11-16-Boy

原创粉丝点击