centos下运行Gemini(单机&分布式)

来源:互联网 发布:s7edge淘宝水货哪家好 编辑:程序博客网 时间:2024/06/08 10:00

centos下运行Gemini(单机&分布式)

单机运行Gemini就直接从GitHub上下载make一下就行,但是速度非常慢;

分布式环境要先装munge,再装slurm,才能执行下面的命令行(srun)

在node16和node18上运行Gemini:

以pagerank算法为例,参数分别为:
节点数 算法所在路径 数据集所在路径 数据集节点数 迭代次数
只用在控制节点上运行以下命令行,计算节点之前通过slurm的配置在运行时自动加入运行。

 srun -N2 ./toolkits/pagerank ./../data_sbb/amazon-2008.bin 735322 55

可能出现的报错

1)如果出现以下情况:

srun: job 151 queued and waiting for resources

可以尝试等待知道出现“分配资源”字样

srun: job 151 queued and waiting for resourcessrun: job 151 has been allocated resources

或直接杀掉进程再重新执行srun:

squeuescancel 151

2)如果出现以下报错:

srun: Required node not available (down, drained or reserved)

说明有的节点down掉了,按下述方式恢复:
(reason可以随便写,但是一定要写)

scontrol: update NodeName=node18 State=DOWN Reason="undraining"scontrol: update NodeName=node18 State=RESUMEscontrol: show node node18scontrol: exitsinfo

现在仍未解决的问题:
1)有些节点莫名down掉,需要频繁手动resume很麻烦;
2)已经格式化掉的节点,slurm.conf和hosts里面也注释掉了,但是sinfo还是会显示

阅读全文
0 0