Caffe深度学习框架作者贾扬清online内容分享III

来源：互联网发布：mysql解压包怎么安装编辑：程序博客网时间：2024/06/06 08:41

2.3 模型训练与调参

参数设置其实有点tricky，我觉得更多的还是通过已有的架构然后来做一些微调，个人也没有太好的insights可以分享，更多的是一些经验型的东西，推荐大家读一下kaiming he最近的paper，很有效果，此外微软的paper，vgg，googlenet可能有帮助。

受限于gpu内存，batchsize不能选太大，这会导致结果的不收敛，话句话说那训练过程中batch的大小对结果影响大吗？

答：理论上batch小是不会影响收敛的。小batch主要的问题是在FC层的计算可能会不是很efficient，但是数学上没有问题。

finetuning过程是用已有的模型来初始化现有的模型，在caffe里面可以设置一些layer的learning rate为零来实现不更新某些层的参数。此外，在finetuning的时候，新问题的图像大小不同于pretraining的图像大小时，只能缩放到同样的大小吗？

答：对的

请问在s层，如何确定该用mean pooling还是max pooling？

答：基本上靠试。

在调参方面有什么比较细致的资料或文献集，比如solver里的 lr_policy 选择有什么规律么?

答：这两个问题，基本上我觉得还是靠经验。marc’aurelio ranzato曾经有一个presentation讲一些有用的trick，marc’aurelio的网站在这，应该是其中的某一个slides。

在自己的数据集上训练，训练的loss函数一直不降低，调小过偏置大小，学习率也改过很多，但是每次都很快的迭代到一个大的值，不再变化，而且测试准确率就等于瞎猜的准确率。这个可能是learning rate太大或者初始值的问题？

答：可以缩小初始值的scale试试。

记得有一篇说论文:trainning_convolutional_networks_with_noisy_labels说在imagenet上，把30%的标签打乱，反而使得最后的结果更好和更鲁棒。那么是不是意味着我们不需要强定义的数据（不需要那么仔细的标注数据）就可以训练得到一个不错的模型呢？

答：我觉得基本上就是数据越干净，数据越多，效果一般就越好（实际应用上我们有时候会让human rater去再次确认一些不确定的标注）。鲁棒性的问题，我觉得可能是因为增加了regularization imagenet上基本上还是标准的protocol来training效果最好。

2.4 caffe与DL的学习与方向

现在是在做机器学习，还没有深入deep learning，是不是要先打好机器学习的基础再学DL会好一点？

答：这个我其实也不是很清楚，很多想法其实都是相通的（比如说优化的问题），所以可以都看一些，然后按照自己的需求深入：）

如何将已知的世界知识，比如说语法规则等有效融入到深度学习中？

答：这个是个好问题，目前大家都有点倾向于learning from scratch，所以我也说不好怎么做融合，但是应该是一个值得考虑的研究方向。

可否评论一下nature 新出的DL文章？reinforcement learning之类的会是下一个主要结合的点吗？

答：哈，Hinton本人的说法是“you won’t learn much from that paper”。那个更多的是一个overview，如果希望了解一下DL的来龙去脉的话值得读一下。RL其实还是挺热门的，deepmind做的就有点像RL，berkeley Pieter Abbeel组也做了很多RL的工作。

像cxxnet，这些新的框架，也集成了bn，prelu等新的模块，caffe是否会内置这些模块呢？

答：我觉得会的，这个在code层面上其实没有太大的问题。我最近主要在做一些refactor，然后还有一些公司的事情，所以没有关注在push新的模块上：）

目前dl在时序序列分析中的进展如何？

答：这个有点长，可以看看google最近的一系列machine translation和image description的工作。关于时序的问题统一回答一下，大家可以参考最近的machine translation，im2txt等等的一系列文章。DL在时序方面的应用主要是RNN/LSTM这方面，主要是用来理解sequence的信息，两个用法：（1）提取sequence的feature，然后来做classification或者embedding，（2）从sequence到sequence，比如说输入语音，输出识别的句子。

对于cxxnet，您是怎么看待的呢？

答：我还挺喜欢cxxnet的一些设计的，基本上就是大家选自己喜欢的codebase来用吧：）

贾扬清的个人主页：http://daggerfs.com/
转自：http://www.datakit.cn/blog/2015/06/12/online_meet_up_with_yangqing_jia.html

0 0