Caffe-10.0--调参技巧、经验

来源:互联网 发布:蜂窝数据各app关不了 编辑:程序博客网 时间:2024/05/20 07:14

1. caffe调参经验资料文章

1.1 Must Know Tips/Tricks in Deep Neural Networks (byXiu-Shen Wei)    翻译在这:

https://www.zhihu.com/question/29901947/answer/46027216

2. 训练深度神经网络的时候需要注意的一些小技巧

accuracy一直在0.9~0.3之间时看看是不是生成lmdb时没有加--shuffle,loss跑到80左右看看是不是数据标签没有从0开始。
翻译网上的哈,我觉得有很大一部分从没看到过,所以就翻译了下,如有不对的地方,欢迎指正:
1:准备数据:务必保证有大量、高质量并且带有干净标签的数据,没有如此的数据,学习是不可能的
2:预处理:这个不多说,就是0均值和1方差化
3:minibatch:建议值128,1最好,但是效率不高,但是千万不要用过大的数值,否则很容易过拟合
4:梯度归一化:其实就是计算出来梯度之后,要除以minibatch的数量。这个不多解释
5:下面主要集中说下学习率
5.1:总的来说是用一个一般的学习率开始,然后逐渐的减小它
5.2:一个建议值是0.1,适用于很多NN的问题,一般倾向于小一点。
5.3:一个对于调度学习率的建议:如果在验证集上性能不再增加就让学习率除以2或者5,然后继续,学习率会一直变得很小,到最后就可以停止训练了。
5.4:很多人用的一个设计学习率的原则就是监测一个比率(每次更新梯度的norm除以当前weight的norm),如果这个比率在10^-3附近,如果小于这个值,学习会很慢,如果大于这个值,那么学习很不稳定,由此会带来失败。
6:使用验证集,可以知道什么时候开始降低学习率,和什么时候停止训练。
7:关于对weight初始化的选择的一些建议:
7.1:如果你很懒,直接用0.02*randn(num_params)来初始化,当然别的值你也可以去尝试
7.2:如果上面那个不太好使,那么久依次初始化每一个weight矩阵用init_scale / sqrt(layer_width) * randn,init_scale可以被设置为0.1或者1
7.3:初始化参数对结果的影响至关重要,要引起重视。
7.4:在深度网络中,随机初始化权重,使用SGD的话一般处理的都不好,这是因为初始化的权重太小了。这种情况下对于浅层网络有效,但是当足够深的时候就不行了,因为weight更新的时候,是靠很多weight相乘的,越乘越小,有点类似梯度消失的意思(这句话是我加的)
8:如果训练RNN或者LSTM,务必保证gradient的norm被约束在15或者5(前提还是要先归一化gradient),这一点在RNN和LSTM中很重要。
9:检查下梯度,如果是你自己计算的梯度。
10:如果使用LSTM来解决长时依赖的问题,记得初始化bias的时候要大一点
12:尽可能想办法多的扩增训练数据,如果使用的是图像数据,不妨对图像做一点扭转啊之类的,来扩充数据训练集合。
13:使用dropout
14:评价最终结果的时候,多做几次,然后平均一下他们的结果。
15:如果你不求state of the art,0.0x的learning rate,0.9x的momentum (1 <= x <= 5),再加少量learning rate decay就可以开始了,还有别忘了一定要加dropout。其他都不用管。
如果你要state of the art performance,直接去找别人做的最好的。
如果你要超越state of the art。。。那问别人也没用,只有自己研究新方法
16: 更改num_out以后,使用自己的数据集进行训练,网络中各层的参数都会更新。如果只想更新某一层的参数的做法如下回答: 
链接:https://www.zhihu.com/question/35754716/answer/66561128 
a. 你希望C层的参数不会改变,C前面的AB层的参数也不会改变,这种情况也就是D层的梯度不往前反向传播到D层的输入blob(也就是C层的输出blob 没有得到梯度),你可以通过设置D层的propagate_down为false来做到。 
propagate_down的数量与输入blob的数量相同,假如你某个层有2个输入blob,那么你应该在该layer的Param里面写上两行: 
propagate_down : 0 # 第1个输入blob不会得到反向传播的梯度 
propagate_down : 0 # 第2个输入blob不会得到反向传播的梯度 
这样的话,你这个layer的梯度就不会反向传播啦,前面的所有layer的参数也就不会改变了 
b. 你希望C层的参数不会改变,但是C前面的AB层的参数会改变,这种情况,只是固定了C层的参数,C层得到的梯度依然会反向传播给前面的B层。只需要将对应的参数blob的学习率调整为0: 
你在layer里面加上param { lr_mult: 0 }就可以了,比如全连接层里面: 

layer { type: “InnerProduct” param { # 对应第1个参数blob的配置,也就是全连接层的参数矩阵的配置 lr_mult: 0 # 学习率为0,其他参数可以看caffe.proto里面的ParamSpec这个类型 } param { # 对应第2个参数blob的配置,也就是全连接层的偏置项的配置 lr_mult: 0 # 学习率为0 } }


0 0