Very Deep Convolutional Networks For Large-Scale Image Recognition论文翻译总结

来源：互联网发布：创盈玻璃优化软件编辑：程序博客网时间：2024/05/24 06:31

VGGnet

论文：《Very Deep Convolutional Networks For Large-Scale Image Recognition》

1. 概述

本文是牛津大学 visual geometry group（VGG）Karen Simonyan 和AndrewZisserman 于2014年撰写的论文，主要探讨了网络深度对于网络的重要性，建立了16-19层的深度网络获得了Imagenet分类的冠军。

2. 网络架构

其网络架构如图1所示。其核心是在卷积层使用了比较小的3*3得卷积核以及较小的步长。

池化层都是用了最大池化，size为2*2，stride也是2。激活函数使用了ReLU。

图1 网络架构表

3. 训练

训练使用了mini-Batchgradient descend算法，其中Minibatch=256，其它的都和Alexnet网络差不多一样。作者发现，尽管VGG比Alex-net有更多的参数，更深的层次；但是VGG需要很少的迭代次数就开始收敛。这是因为

1，深度和小的filter尺寸起到了隐式的规则化的作用

2，一些层的pre-initialisation

pre-initialisation：

网络A的权值W是满足（0,0.01）的高斯分布，bias为0；由于存在大量的ReLU函数，不好的权值初始值对于网络训练影响较大。为了绕开这个问题，作者现在通过随机的方式训练最浅的网络A；然后在训练其他网络时，把A的前4个卷基层（感觉是每个阶段的以第一卷积层）和最后全连接层的权值当做其他网络的初始值，未赋值的中间层通过随机初始化。

把原始 image缩放到最小边S>224；然后在full image上提取224*224片段，进行训练。

方法1：

单一scale上训练，固定S大小，论文实验室中选择了两个固定的大小一个是256，一个是384。

方法2：

在multi scale上训练，类似OverFeat测试时使用的方法，在[Smin,Smax]scale上，随机选取一个scale，smin=256，smax=512。然后提取224*224的图片，训练一个网络。这种方法类似图片尺寸上的数据增益。

0 0