机器学习torch代码训练过程中常见bug解决经验

来源:互联网 发布:淘宝店推广引流的技巧 编辑:程序博客网 时间:2024/06/05 12:44

1.out of memory 

THCudaCheck FAIL file=/tmp/luarocks_cutorch-scm-1-3726/cutorch/lib/THC/generic/THCStorage.cu line=66 error=2 : out of memory


In 20 module of nn.Sequential:

torch/install/share/lua/5.1/cudnn/Pointwise.lua:63: cuda runtime error (2) : out of memory at /tmp/luarocks_cutorch-scm-1-3726/cutorch/lib/THC/generic/THCStorage.cu:66

stack traceback:

        [C]: in function 'resizeAs'



解决:

linux 使用nvidia-smi -l 查看当前内存使用情况


(1)有可能机器本身的内存不够,譬如只有2G,实际vgg网络一般都需要超过2G的内存,所以可以使用cpu的方式,或者查看使用这个方式http://liipetti.net/erratic/2016/03/21/using-nin-imagenet-conv-in-neural-style/

(2)机器本身内存6G,基本够用,程序运行过程中使用内存过大,有可能是使用训练的图片比较大,size更改小点

(3)batchSize设置比较大,有些机器内存不够。