Very Deep Convolutional Networks For Large-Scale Image Recognition论文翻译总结

来源:互联网 发布:创盈玻璃优化软件 编辑:程序博客网 时间:2024/05/24 06:31

VGGnet

论文:《Very Deep Convolutional Networks For Large-Scale Image Recognition》


1.     概述

本文是牛津大学 visual geometry group(VGG)Karen Simonyan 和AndrewZisserman 于2014年撰写的论文,主要探讨了网络深度对于网络的重要性,建立了16-19层的深度网络获得了Imagenet分类的冠军。

2.     网络架构

其网络架构如图1所示。其核心是在卷积层使用了比较小的3*3得卷积核以及较小的步长

池化层都是用了最大池化,size为2*2,stride也是2。激活函数使用了ReLU。

图1 网络架构表

3.     训练

训练使用了mini-Batchgradient descend算法,其中Minibatch=256,其它的都和Alexnet网络差不多一样。作者发现,尽管VGG比Alex-net有更多的参数,更深的层次;但是VGG需要很少的迭代次数就开始收敛。这是因为

1,深度和小的filter尺寸起到了隐式的规则化的作用

2,一些层的pre-initialisation

pre-initialisation:

网络A的权值W是满足(0,0.01)的高斯分布,bias为0;由于存在大量的ReLU函数,不好的权值初始值对于网络训练影响较大。为了绕开这个问题,作者现在通过随机的方式训练最浅的网络A;然后在训练其他网络时,把A的前4个卷基层(感觉是每个阶段的以第一卷积层)和最后全连接层的权值当做其他网络的初始值,未赋值的中间层通过随机初始化。

把原始 image缩放到最小边S>224;然后在full image上提取224*224片段,进行训练。

方法1:

单一scale上训练,固定S大小,论文实验室中选择了两个固定的大小一个是256,一个是384。

方法2:

在multi scale上训练,类似OverFeat测试时使用的方法,在[Smin,Smax]scale上,随机选取一个scale,smin=256,smax=512。然后提取224*224的图片,训练一个网络。这种方法类似图片尺寸上的数据增益。

 

0 0
原创粉丝点击