训练FASTER-RCNN趣谈

来源:互联网 发布:广电网络集客业务汇报 编辑:程序博客网 时间:2024/06/09 08:13
训练FASTER-RCNN时,参考了https://github.com/CharlesShang/TFFRCNN,于是跳进了一个大坑。。。
作者是在前人的基础上改的,难免有bug,但是我没想到这个bug竟然会让我ubuntu系统重启。详细说来如下:
  1. 我先按照作者要求,demo尝试了可以,train_net经过修改make.sh文件,也可以运行了。但是我发现,如果restore=1(默认),程序是不装载VGGnet_train.npy,假如强制修改如下,程序可以运行,但是程序是没有任何基础在运行的,这就导致训练结束后效果很差。
  2. 查看源程序,要想加载预训练参数,须将restore=0,即可以将程序添加为args.restore=0,但是问题来了,机子在训练时出现崩溃,现象如下:
    1. 刚开始时系统重启,显示出现电涌。我把电涌保护开关关掉,照样重启。我以为是电源质量不行,用的显卡是TITAN X,cpu 4000HZ,训练时功耗很大。当时装的电源是2015年的500W电源,按说还是可以的。
    2. 经历过几次死机后,发现硬盘坏了。因为是突然重启,这样次数过多后必然损伤硬盘。
    3. 没办法,只能找块新的硬盘,重装系统了(这时我以为是硬盘坏了,导致的系统重启,当时的现象是,机子运行其他程序没事,一训练就会重启->其是是训练这个程序时重启)。重装了一遍,砸电脑的心都有了。
    4. 重装好系统后继续训练https://github.com/CharlesShang/TFFRCNN的程序,继续设置restore=0,,,,又死机了。。。砸电脑,师兄给拦住了。。。。于是打算买个新的电源,600W。
    5. 后来我想了下,也可能是程序的事,于是跑了一下以前的程序,每个都能正常运行,GPU使用率百分之八九十以上,没问题啊,我开始怀疑是程序的事了。
    6. 网上找了另外一个程序https://github.com/smallcorgi/Faster-RCNN_TF,完全没有问题。惊喜。
    7. 不甘心,将https://github.com/CharlesShang/TFFRCNN的程序尝试了下Resnet50_train,惊喜,可以运行。
    8. 找到出问题的地方了。VGGnet_train的预训练模型可能有问题,反正restore=0时会炸。
  3. 2017.5.18 修改 尝试一下其他的程序,也有可能出现机子重启的情况。后来还是考虑是不是机子自身配置的问题,GPU功耗一高,电源性能下降,导致重启。后来换了个多路600W电源,果然程序可以再次运行了。在此,向https://github.com/CharlesShang/TFFRCNN道歉,即使用VGG+restore=0,一样可以训练了。
当然,有遇到以上问题者并能给出合理解释的可以联系我,感激不尽。
原创粉丝点击