Caffe-10.0--调参技巧、经验

来源：互联网发布：蜂窝数据各app关不了编辑：程序博客网时间：2024/05/20 07:14

1. caffe调参经验资料文章

1.1 Must Know Tips/Tricks in Deep Neural Networks (byXiu-Shen Wei) 翻译在这：

https://www.zhihu.com/question/29901947/answer/46027216

2. 训练深度神经网络的时候需要注意的一些小技巧

accuracy一直在0.9~0.3之间时看看是不是生成lmdb时没有加--shuffle，loss跑到80左右看看是不是数据标签没有从0开始。

翻译网上的哈，我觉得有很大一部分从没看到过，所以就翻译了下，如有不对的地方，欢迎指正：

1：准备数据：务必保证有大量、高质量并且带有干净标签的数据，没有如此的数据，学习是不可能的

2：预处理：这个不多说，就是0均值和1方差化

3：minibatch：建议值128,1最好，但是效率不高，但是千万不要用过大的数值，否则很容易过拟合

4：梯度归一化：其实就是计算出来梯度之后，要除以minibatch的数量。这个不多解释

5：下面主要集中说下学习率

5.1：总的来说是用一个一般的学习率开始，然后逐渐的减小它

5.2：一个建议值是0.1，适用于很多NN的问题，一般倾向于小一点。

5.3：一个对于调度学习率的建议：如果在验证集上性能不再增加就让学习率除以2或者5，然后继续，学习率会一直变得很小，到最后就可以停止训练了。

5.4：很多人用的一个设计学习率的原则就是监测一个比率（每次更新梯度的norm除以当前weight的norm），如果这个比率在10^-3附近，如果小于这个值，学习会很慢，如果大于这个值，那么学习很不稳定，由此会带来失败。

6：使用验证集，可以知道什么时候开始降低学习率，和什么时候停止训练。

7：关于对weight初始化的选择的一些建议：

7.1：如果你很懒，直接用0.02*randn(num_params)来初始化，当然别的值你也可以去尝试

7.2：如果上面那个不太好使，那么久依次初始化每一个weight矩阵用init_scale / sqrt(layer_width) * randn,init_scale可以被设置为0.1或者1

7.3：初始化参数对结果的影响至关重要，要引起重视。

7.4：在深度网络中，随机初始化权重，使用SGD的话一般处理的都不好，这是因为初始化的权重太小了。这种情况下对于浅层网络有效，但是当足够深的时候就不行了，因为weight更新的时候，是靠很多weight相乘的，越乘越小，有点类似梯度消失的意思（这句话是我加的）

8：如果训练RNN或者LSTM，务必保证gradient的norm被约束在15或者5（前提还是要先归一化gradient），这一点在RNN和LSTM中很重要。

9：检查下梯度，如果是你自己计算的梯度。

10：如果使用LSTM来解决长时依赖的问题，记得初始化bias的时候要大一点

12：尽可能想办法多的扩增训练数据，如果使用的是图像数据，不妨对图像做一点扭转啊之类的，来扩充数据训练集合。

13：使用dropout

14：评价最终结果的时候，多做几次，然后平均一下他们的结果。

15：如果你不求state of the art，0.0x的learning rate，0.9x的momentum (1 <= x <= 5)，再加少量learning rate decay就可以开始了，还有别忘了一定要加dropout。其他都不用管。

如果你要state of the art performance，直接去找别人做的最好的。
如果你要超越state of the art。。。那问别人也没用，只有自己研究新方法

16：更改num_out以后，使用自己的数据集进行训练，网络中各层的参数都会更新。如果只想更新某一层的参数的做法如下回答：
链接：https://www.zhihu.com/question/35754716/answer/66561128
a. 你希望C层的参数不会改变，C前面的AB层的参数也不会改变，这种情况也就是D层的梯度不往前反向传播到D层的输入blob（也就是C层的输出blob 没有得到梯度），你可以通过设置D层的propagate_down为false来做到。
propagate_down的数量与输入blob的数量相同，假如你某个层有2个输入blob，那么你应该在该layer的Param里面写上两行：
propagate_down : 0 # 第1个输入blob不会得到反向传播的梯度
propagate_down : 0 # 第2个输入blob不会得到反向传播的梯度
这样的话，你这个layer的梯度就不会反向传播啦，前面的所有layer的参数也就不会改变了
b. 你希望C层的参数不会改变，但是C前面的AB层的参数会改变，这种情况，只是固定了C层的参数，C层得到的梯度依然会反向传播给前面的B层。只需要将对应的参数blob的学习率调整为0：
你在layer里面加上param { lr_mult: 0 }就可以了，比如全连接层里面：

layer { type: “InnerProduct” param { # 对应第1个参数blob的配置，也就是全连接层的参数矩阵的配置 lr_mult: 0 # 学习率为0，其他参数可以看caffe.proto里面的ParamSpec这个类型 } param { # 对应第2个参数blob的配置，也就是全连接层的偏置项的配置 lr_mult: 0 # 学习率为0 } }

0 0