Caffe深度学习框架作者贾扬清online内容分享III

来源:互联网 发布:mysql解压包怎么安装 编辑:程序博客网 时间:2024/06/06 08:41

2.3 模型训练与调参

参数设置其实有点tricky,我觉得更多的还是通过已有的架构然后来做一些微调,个人也没有太好的insights可以分享,更多的是一些经验型的东西,推荐大家读一下kaiming he最近的paper,很有效果,此外微软的paper,vgg,googlenet可能有帮助。

  • 受限于gpu内存,batchsize不能选太大,这会导致结果的不收敛,话句话说那训练过程中batch的大小对结果影响大吗?
答:理论上batch小是不会影响收敛的。小batch主要的问题是在FC层的计算可能会不是很efficient,但是数学上没有问题。
  • finetuning过程是用已有的模型来初始化现有的模型,在caffe里面可以设置一些layer的learning rate为零来实现不更新某些层的参数。此外,在finetuning的时候,新问题的图像大小不同于pretraining的图像大小时,只能缩放到同样的大小吗?
答:对的
  • 请问在s层,如何确定该用mean pooling还是max pooling?
答:基本上靠试。
  • 在调参方面有什么比较细致的资料或文献集,比如solver里的 lr_policy 选择有什么规律么?
答:这两个问题,基本上我觉得还是靠经验。marc’aurelio ranzato曾经有一个presentation讲一些有用的trick,marc’aurelio的网站在这,应该是其中的某一个slides。
  • 在自己的数据集上训练,训练的loss函数一直不降低,调小过偏置大小,学习率也改过很多,但是每次都很快的迭代到一个大的值,不再变化,而且测试准确率就等于瞎猜的准确率。这个可能是learning rate太大或者初始值的问题?
答:可以缩小初始值的scale试试。
  • 记得有一篇说论文:trainning_convolutional_networks_with_noisy_labels说在imagenet上,把30%的标签打乱,反而使得最后的结果更好和更鲁棒。那么是不是意味着我们不需要强定义的数据(不需要那么仔细的标注数据) 就可以训练得到一个不错的模型呢?
答:我觉得基本上就是数据越干净,数据越多,效果一般就越好(实际应用上我们有时候会让human rater去再次确认一些不确定的标注)。鲁棒性的问题,我觉得可能是因为增加了regularization imagenet上基本上还是标准的protocol来training效果最好。

2.4 caffe与DL的学习与方向

  • 现在是在做机器学习,还没有深入deep learning,是不是要先打好机器学习的基础再学DL会好一点?
答:这个我其实也不是很清楚,很多想法其实都是相通的(比如说优化的问题),所以可以都看一些,然后按照自己的需求深入:)
  • 如何将已知的世界知识,比如说语法规则等有效融入到深度学习中?
答:这个是个好问题,目前大家都有点倾向于learning from scratch,所以我也说不好怎么做融合,但是应该是一个值得考虑的研究方向。
  • 可否评论一下nature 新出的DL文章?reinforcement learning之类的会是下一个主要结合的点吗?
答:哈,Hinton本人的说法是“you won’t learn much from that paper”。那个更多的是一个overview,如果希望了解一下DL的来龙去脉的话值得读一下。RL其实还是挺热门的,deepmind做的就有点像RL,berkeley Pieter Abbeel组也做了很多RL的工作。
  • 像cxxnet,这些新的框架,也集成了bn,prelu等新的模块,caffe是否会内置这些模块呢?
答:我觉得会的,这个在code层面上其实没有太大的问题。我最近主要在做一些refactor,然后还有一些公司的事情,所以没有关注在push新的模块上:)
  • 目前dl在时序序列分析中的进展如何?
答:这个有点长,可以看看google最近的一系列machine translation和image description的工作。关于时序的问题统一回答一下,大家可以参考最近的machine translation,im2txt等等的一系列文章。DL在时序方面的应用主要是RNN/LSTM这方面,主要是用来理解sequence的信息,两个用法:(1)提取sequence的feature,然后来做classification或者embedding,(2)从sequencesequence,比如说输入语音,输出识别的句子。
  • 对于cxxnet,您是怎么看待的呢?
答:我还挺喜欢cxxnet的一些设计的,基本上就是大家选自己喜欢的codebase来用吧:)

贾扬清的个人主页:http://daggerfs.com/
转自:http://www.datakit.cn/blog/2015/06/12/online_meet_up_with_yangqing_jia.html

0 0
原创粉丝点击