多GPU环境下使用caffe遇到的问题

来源:互联网 发布:通信产业云计算峰会 编辑:程序博客网 时间:2024/04/28 20:00

两张GTX 1080 Ti,CPU为 AMD Ryzen 7 1700X,系统为 ubuntu sever 16.04需要nccl的支持。但是nccl的test跑不通,也就是两个GPU没办法相互协作!!!

在github上提交相关issue:
https://github.com/NVIDIA/nccl/issues/120



原来是CPU的设置问题,现已解决。

AMD的CPU解决方案:

输入 iommu命令发现输出中包含类似如下信息,说明AMD CPU的IOMMU被打开了。

[    1.217752] iommu: Adding device 0000:44:00.0 to group 18[    1.217762] iommu: Adding device 0000:44:00.2 to group 18[    1.217980] AMD-Vi: Found IOMMU at 0000:00:00.2 cap 0x40[    1.217984] AMD-Vi: Found IOMMU at 0000:40:00.2 cap 0x40[    1.220552] perf: amd_iommu: Detected. (0 banks, 0 counters/bank)
输入

sudo vim /etc/default/grub
按下述编辑:

#GRUB_CMDLINE_LINUX=""                           <----- Original commentedGRUB_CMDLINE_LINUX="iommu=soft"           <------ Change
然后更新GRUB:

sudo update-grub
最后重启:

sudo reboot

多GPU已经可以正常使用!







原创粉丝点击