Ubuntu安装Torque教程

来源:互联网 发布:js的正则表达式中文 编辑:程序博客网 时间:2024/05/31 13:16
1. 下载Torque源代码:
http://www.adaptivecomputing.com/support/download-center/torque-download/

我下载了:torque-4.1.7.tar.gz


2. 解包并编译:
cd Downloads/
tar -xzvf torque-4.1.7.tar.gz
cd torque-4.1.7/

./configure --prefix=/usr/local/torque


提示缺少 openssl-dev和 libxml2-dev之类的,补上它们。。。
configure: error: TORQUE needs lib openssl-devel in order to build
输入 sudo apt-get install libssl-dev
configure: error: TORQUE needs lib libxml2-devel in order to build

输入 sudo apt-get install libxml2-dev


直至 ./configure --prefix=/usr/local/torque没有提示缺少库,ready to make为止。


像这样提示:
Building components: server=yes mom=yes clients=yes
gui=no drmaa=no pam=no
PBS Machine type : linux
Remote copy : /usr/bin/scp -rpB
PBS home : /var/spool/torque
Default server : rccm
Unix Domain sockets :
Linux cpusets : no
Tcl : disabled

Tk : disabled


命令:make

命令:sudo make install


3. 设置环境变量并刷新 (刷新环境变量需要注意时效性,如果root或sudoer退出终端,在

没有重启机器的前提下,那么还是要刷新下的,不然可能会提示木有trqauthd之类的错误)

sudo vi /etc/profile
添加
#Torque
export PATH=/usr/local/torque/bin:/usr/local/torque/sbin:$PATH

刷新环境变量
sudo -s

source /etc/profile(使配置生效)


4. 安装需管理员权限
仍然在 torque-4.1.7 文件夹下
sudo ./torque.setup root
如果出现:
mxio@Node1:~/Downloads/torque-4.1.7$ sudo ./torque.setup root
./torque.setup: 1: ./torque.setup: trqauthd: not found
trqauthd failed to start!!! exiting setup 错误,那么请检查第三步并刷新source /etc/profile。
出现类似下面的成功:
pbs_server port is: 15001
trqauthd daemonized - port 15005
trqauthd successfully started
initializing TORQUE (admin: root@Node1)
You have selected to start pbs_server in create mode.
If the server database exists it will be overwritten.
do you wish to continue y/(n)?y
root 495 1 1 17:40 ? 00:00:00 pbs_server -t create
Max open servers: 9

Max open servers: 9


5. 配置需管理员权限
sudo -s
查看计算机名
hostname
输出 Node1 (服务器计算机名)
vi /etc/hosts 将计算机名添加进hosts,我选择注释掉127.0.1.1 Node1,改成:
127.0.0.1 Node1 localhost
#127.0.1.1 Node1
进入torque主目录进行环境变量设置:
cd /var/spool/torque
vi server_priv/nodes

添加:
Node1 np=32

即计算机名和CPU数目


vi mom_priv/config(没有config文件,只能自己生成)
添加:

$pbs_server = 127.0.0.1


vi server_name
添加:

Node1


6. 启动client daemon

pbs_mom


7 重启pbs server daemon
qterm

pbs_server


8. 启动scheduler daemon

pbs_sched


9. 检查服务是否正确启动
ps -aux | grep pbs #check all is running
qstat -q #check the presence of the queue
qmgr -c 'p s' #check server & queue settings

pbsnodes -a #check if the nodes are listed and up


10. 配置列队
qmgr -c "set queue batch resources_default.walltime = 360:00:00"
qmgr -c "set server query_other_jobs = True"

qmgr -c "set queue batch resources_max.ncpus=32"


11. 测试列队(只能用普通用户来执行)
首先退出root
exit
source /etc/profile
echo "sleep 30" | qsub

qstat


12. 配置开启启动
cd到torque-2.4.6/contrib/init.d目录下
sudo -s
cp debian.pbs_mom /etc/init.d/pbs_mom && update-rc.d pbs_mom defaults
cp debian.pbs_server /etc/init.d/pbs_server && update-rc.d pbs_server defaults
cp debian.pbs_sched /etc/init.d/pbs_sched && update-rc.d pbs_sched defaults
cp debian.trqauthd /etc/init.d/trqauthd && update-rc.d trqauthd defaults

注,请检查DAEMON是否为/usr/local/torque/sbin/$NAME,不是的话请修改。


13. 重启计算机
echo "sleep 30" | qsub
qstat

输出:
Job ID Name User Time Use S Queue
------------------------- ---------------- --------------- -------- - -----
2.Node1 STDIN mxio 0 Q batch

成功搞定。


备注
1. Torque默认列队配置:
命令:qmgr -c 'p s'

-----------------------------------------------------------------------------------------------

显示:
#
# Create queues and set their attributes.
#
#
# Create and define queue batch
#
create queue batch
set queue batch queue_type = Execution
set queue batch resources_default.nodes = 1
set queue batch resources_default.walltime = 01:00:00
set queue batch enabled = True
set queue batch started = True
#
# Set server attributes.
#
set server scheduling = True
set server acl_hosts = Node1
set server managers = root@yu
set server operators = root@yu
set server default_queue = batch
set server log_events = 511
set server mail_from = adm
set server scheduler_iteration = 600
set server node_check_rate = 150
set server tcp_timeout = 300
set server job_stat_rate = 45
set server poll_jobs = True
set server mom_job_sync = True
set server keep_completed = 300
set server next_job_number = 0
set server moab_array_compatible = True

--------------------------------------------------------------------------------------------------------------------------
2. 配置过程中,如果遇到启动pbs_server pbs_mom pbs_scheduler出现错误,那么kill掉那个进程,重新启动之。


3.命令yumh@yu:~/pbs/torque-4.1.7/contrib$ qstat -q

-----------------------------------------------------------------------------------------------------------------------
显示:
server: yu


Queue            Memory CPU Time Walltime Node  Run Que Lm  State
---------------- ------ -------- -------- ----  --- --- --  -----
batch              --      --       --      --    0   0 --   E R
                                               ----- -----
                                                   0     0

------------------------------------------------------------------------------------------------------------------------------

4.命令:yumh@yu:~/pbs/torque-4.1.7/contrib$pbsnodes -a

---------------------------------------------------------------------------------------

显示:
yu
     state = free
     np = 32
     ntype = cluster
     status = rectime=1441542747,varattr=,jobs=,state=free,netload=46929,gres=,loadave=0.05,ncpus=1,physmem=3347760kb,availmem=6331620kb,totmem=6748460kb,idletime=3,nusers=4,nsessions=20,sessions=477 1029 1550 3189 4379 4444 4464 4470 4475 4493 4494 4497 4508 4528 4535 4550 4553 4667 4920 5164,uname=Linux yu 3.11.0-12-generic #19-Ubuntu SMP Wed Oct 9 16:12:00 UTC 2013 i686,opsys=linux
     mom_service_port = 15002
     mom_manager_port = 15003
     gpus = 0

----------------------------------------------------------------------------------------------------------------------------

补记:

让torque发送任务信息邮件

系统要求安装好sendmail

因此:

sudo apt-get install sendmail

sudo apt-get install mailutils

此时测试是否启动 ps aux |grep sendmail

显示:

root      1592  0.0  0.0  90476  2556 ?        Ss   16:39   0:00 sendmail: MTA: accepting connections         
mxio      2570  0.0  0.0   7628   956 pts/0    S+   16:49   0:00 grep --color=au
to sendmail
You have mail in /var/mail/mxio

测试是否可以正常发送邮件:

编写一般的邮件:

mail test@mail.com

显示:

Cc,抄送,跳过按enter

Subject: 输入内容,完成后按ctrl+D结束编辑发送

当目标邮箱接收到邮件后,说明配置正确。

 

如果之前没有配置sendmail,那么torque需要重新编译安装,正常顺序即可

 

编写PBS时添加:

#PBS -m abe -M test@mail.com

即可接收

其中:-m abe

a 是任务终止邮件 b是任务开始邮件 e是任务结束邮件,正常情况下,全开abe会接收到2封邮件

-M 是目标邮件地址

接收任务结束的邮件:

在workstation上安装torque

mxio

2012.5.28

 

 

补记:

Torque Qmgr设置:

qmgr -c 'p s'  查看列队设置

qmgr -c 'set server xxx=xxx' 设置server列队参数

qmgr -c 'unset server xxx' 取消server xxx的设置

qmgr -c 'set server managers += mxio@Node1'

qmgr -c 'set server operators += mxio@Node1'  在"="号前加"+"表示附加条件,本例为添加mxio为管理员

qmgr create queue xxx 建立xxx列队

qmgr delete queue xxx 删除xxx列队

qmgr -c 'set server mail_from = mxio' 设置发送邮件人,这样发件人就是 mxio

下面设置 发送邮件的 domain,因为默认发送邮件的邮箱地址是 adm@localhost.domainname 这样邮件是不能回复的

进入 sendmail的设置环节,需要root身份:

su -

vi /etc/mail/submit.mc

将:dnl MASQUERADE_AS()dnl

改为:

MASQUERADE_AS(`126.com')dnl
其中126.com就是选用邮箱的地址 这样完整的发件人邮箱地址就是 : mxio@126.com

注意的地方就是:上面两行括号里的点不是两个单引号. 而是一个 ` 和 一个单引号 '

保存

service sendmail restart

 

如此设置,提交列队如果请求发送邮件的话,那么发件人就是你设置的这个“虚假”的邮箱地址,但是它又真实存在,这样用户回发的邮件就可以回复到这个“虚假”的地址上,方便管理员查收邮件。

 

mxio

2012.5.30

 

 

Sendmail发送很慢的问题

vi /etc/hosts 添加

127.0.0.1 localhost.localdomain localhost yourhostname

这样设置服务器别名,sendmail就绕过DNS查找主机名的A记录和反向域名记录,从而发送邮件就快了。

 

mxio



0 0