AWS ubuntu14.04实例上进行condor8.4.3 集群内配置

来源:互联网 发布:制作相册影集的软件 编辑:程序博客网 时间:2024/06/06 09:16

首先,在每个实例上的安全组的入站和出站选项上要添加规则:允许所有流量

第一步:manager的配置

1、主机名和ip地址的配置

使用root权限

vim /etc/hosts 修改主机名和ip地址

按i进行编辑:

127.0.0.1                                    master.condor


172.31.21.101                          master.condor

172.31.......                                slave1.condor

172...........                                  slave2.condor

................                                    ...............


按以上编辑完后:wq!保存退出

 使用ping+ip地址来测试是否能够在集群内成功通信。

2、condor的配置文件

vim /etc/condor/condor_config

按i进行编辑:

首先启用web服务:

在RELEASE_DIR的下一行加入:

WEB_ROOT_DIR = $RELEASE_DIR/web

ENABLE_SOAP = TRUE 

ENABLE_WEB_SERVER = TRUE



然后加入:

ALLOW_WRITE = 172.31.21.101,..........,................,..............

ALLOW_READ = 172.31.21.101, ....... ................. ................

这个地方要依次填上manager和slave的ip地址


然后修改condor_host的hostname,改为manager的ip地址。

然后修改deamon_list的内容


修改完wq!保存并退出。


condor_status看有几个节点配置成功

pstree|grep condor看本机器的进程

 

在一个manager机器上把condor和其他所有配置完成以后,创建一个AWS EC2 AMI(镜像文件)。然后后面的slave就复制这个AMI实例,然后再个别配置。

要处理稍微大型一点的任务,t2.micro型的实例肯定是跑不动的,起码要t2.medium(2CPU,4G内存),EBS存储的话最好在30GB以上(参照装一个Caffe和MKL的话就已经使用20G左右的空间)。

0 0