Torque安装部署方法
来源:互联网 发布:网络电视看直播调清洗 编辑:程序博客网 时间:2024/06/06 01:15
总结:
1、安装系统
2、修改/etc/hosts文件将计算节点服务节点对应的IP加入其中,此处不加则无法进行通信
3、关闭防火墙service iptables stop,此处不停止则无法进行通信
4、安装Torque并将生成的*.sh packet放到各个计算节点中,在计算节点中安装。
5、计算节点需要手动配置config文件,之后再启动pbs_mom,此处不加则pbsnodes时状态始终为down,state = down
6、启动master节点pbs_server,pbs_sched
7、提交任务,查看任务,结束
详细信息可参考我下面写的内容或http://www.clusterresources.com/torquedocs21/1.2basicconfig.shtml
环境配置:
Fedora12 ISO 下载
http://download.chinaunix.net/down.php?id=31289&ResourceID=12802&site=6
http://www.adaptivecomputing.com/resources/downloads/torque/ 最新的安装包,这里使用的是4.1.2版本,文件名是torque-4.1.2.tar.gz。
安装
- $ ./configure
- $ make
- $ sudo make install
- $ make packages (用来产生在其它机器上安装用的安装包,运行完后会生成几个torque-package-*.sh文件)
- # echo '/usr/local/lib' > /etc/ld.so.conf.d/torque.conf
- # ldconfig
- # ./torque.setup <user> //<user> 替换为非root用户即可
这里需要说明一下,Torque主要是由三个主要部件组成
pbs_server PBS服务守护进程,负责接收作业提交,位于服务节点上
pbs_sched PBS调度守护进程,负责调度作业,位于服务节点上
pbs_mom PBS MOM守护进程, 负责监控本机并执行作业,位于所有计算节点上
可以使用下面命令来启动Torque服务
- $ sudo pbs_server //在服务器节点执行
- $ sudo pbs_sched //在服务器节点执行
- $ sudo pbs_mom //在计算节点执行
- $ sudo trqauthd
- $ sudo cp contrib/init.d/pbs_server /etc/init.d/
- $ sudo cp contrib/init.d/pbs_sched /etc/init.d/
- $ sudo cp contrib/init.d/pbs_mom /etc/init.d/
- $ sudo cp contrib/init.d/trqauthd /etc/init.d/
- $ sudo /etc/init.d/pbs_server start|stop|status
- $ sudo /etc/init.d/ pbs_sched start|stop|status
- $ sudo /etc/init.d/ pbs_mom start|stop|status
- $ sudo /etc/init.d/ trqauthd start|stop|status
测试
1. 在master机器上写一个测试脚本/opt/test/sleep.sh, 内容如下
- #!/bin/sh
- sleep 600
- $ qsub /opt/test/sleep.sh
- $ qstat -a -n
此时可以看到各个作业的运行状态。
假定“单机安装运行PBS (Torque)”中安装的机器作为master,下面来向cluster添加新的nodes。这里假定新加入nodes的机器名是host1和host2。安装
如 IP1 host1;IP2 host2
- $ ./torque-package-mom-*.sh --install
- $ ./torque-package-clients-*.sh --install
启动停止服务
1. 分别在host1和host2上运行下面命令启动mom服务
$TORQUEHOME = /var/spool/torque,在mom_priv目录下新建一个config文件,加入下面的代码,同时将master及对应的IP地址加入计算节点的/etc/hosts文件中。
$TORQUEHOME/mom_priv/config:
$pbsserver master # note: hostname running pbs_server$logevent 255 # bitmap of which events to log
- $ sudo /usr/local/sbin/pbs_mom
- $ qmgr -c 'create node host1 np=2'
- $ qmgr -c 'create node host2 np=2'
3. 在master机器上重启服务使修改生效
- $ sudo /etc/init.d/pbs_server restart
测试
1. 在master机器上写一个测试脚本/opt/test/sleep.sh, 内容如下
- #!/bin/sh
- sleep 600
- $ qsub /opt/test/sleep.sh
- $ qstat -a -n
在安装Torque4.1.2之后,运行"sudo ./torque.setup <user>"有时候出现下面的错误
- ================================================================================
- initializing TORQUE ...
- You have selected to start pbs_server in create mode.
- If the server database exists it will be overwritten.
- do you wish to continue y/(n)?y
- root 28100 1 1 04:03 ? 00:00:00 pbs_server -t create
- Max open servers: 9
- qmgr obj= svr=default: Unauthorized Request MSG=error in permissions (PERM_OPorMGR)
- Max open servers: 9
- qmgr obj= svr=default: Unauthorized Request MSG=error in permissions (PERM_OPorMGR)
- qmgr obj= svr=default: Unauthorized Request MSG=error in permissions (PERM_OPorMGR)
- qmgr obj= svr=default: Unauthorized Request MSG=error in permissions (PERM_OPorMGR)
- qmgr obj= svr=default: Unauthorized Request MSG=error in permissions (PERM_OPorMGR)
- qmgr obj=batch svr=default: Unauthorized Request MSG=error in permissions (PERM_MANAGER)
- qmgr obj=batch svr=default: Unauthorized Request MSG=error in permissions (PERM_OPorMGR)
- qmgr obj=batch svr=default: Unauthorized Request MSG=error in permissions (PERM_OPorMGR)
- qmgr obj=batch svr=default: Unauthorized Request MSG=error in permissions (PERM_OPorMGR)
- qmgr obj=batch svr=default: Unauthorized Request MSG=error in permissions (PERM_OPorMGR)
- qmgr obj=batch svr=default: Unauthorized Request MSG=error in permissions (PERM_OPorMGR)
- qmgr obj= svr=default: Unauthorized Request MSG=error in permissions (PERM_OPorMGR)
- ================================================================================
解决方法:修改/etc/hosts文件,将当前机器IP和机器名添加进去
比如添加前配置信息如下
- 127.0.0.1 localhost.localdomain localhost
- ::1 localhost6.localdomain6 localhost6
- 127.0.0.1 localhost.localdomain localhost
- ::1 localhost6.localdomain6 localhost6
- 192.168.0.100 myhost
- Torque安装部署方法
- Linux下Torque安装部署方法
- torque安装
- torque 安装
- torque安装笔记
- Torque 的安装
- 客户端安装torque问题
- Torque安装调试实验
- Torque安装说明
- Torque 的安装
- TORQUE安装笔记:
- Ubuntu安装Torque教程
- torque 安装排错
- Centos7单机安装torque
- Centos7安装Torque
- torque ConsoleFunction实现方法
- torque (以前的 OpenPBS) 安装
- Centos7安装-单节点Torque
- 代码
- STL标准模板库编程---容器(一)
- Linux Crontab 定时任务 命令详解
- 小知识:Windows Vista/7中关机、睡眠和休眠的区别
- 从J-15和航母发展谈我国军工发展
- Torque安装部署方法
- android自定义控件
- C++常用数据类型转换
- usaco --fence9
- JDBC入门讲座(上)
- Thread类的interrupt,interrupted,isInterrupted方法的理解
- 酒鬼酒股市赚钱
- C#读取Excel表中的数据时,有些字段内容读取不到的解决办法
- 用jquery播放mp3文件