VGG —— 更深度卷积网络

来源:互联网 发布:windows远程登录 编辑:程序博客网 时间:2024/06/03 12:47

这里我们主要考察增加卷积网络的深度对于提高大规模图像识别设置准确度的作用。我们首先描述我们使用的卷积网络的一般结构,然后介绍在评估中使用的特定设置细节,最后讨论并比较我们的设计与此前一些模型的区别。

结构

在训练中,卷积网络的输入是固定大小的224×224RGB图像。我们唯一做的预处理是在训练集中计算出平均RGB值,并在每个像素上减去它。图像经过堆叠的卷积层处理,我们使用具有非常小接收域的过滤器:3×3(捕捉左/右,上/下,中间概念最小尺寸)。在一个设置中我们使用1×1卷积过滤器,可以看作是对输入通道的线性转换(然后进行非线性)。卷积步长固定为1个像素。卷积层空间填充的原则是使空间分辨率在卷积后保持不变,即对于3×3的卷积,填充1个像素。空间池化由5个最大池化层在一些卷积层后进行(不是每个卷积之后都进行池化)。池化在2×2像素窗口进行,步长为2。

堆叠卷积层(在不同结构中有不同深度)后采用3个全连接层(FC):前两个每个有4096个通道,第三个执行1000类ILSVRC分类因此有1000个通道。最后一层是soft-max层。全连接层的设置在所有模型中相同。

所有的隐藏层都进行非线性修正(ReLU)。我们的网络(除一个外)都不含本地反应归一化(LRN),采用归一化并不能提高在ILSVRC数据集上的表现,但大大增加了内存使用和计算时间。当使用归一化时,LRN层的参数与Krizhevsky et al. 2012中的相同。

设置

所有设置都基本遵循上述结构,唯一不同的是深度,从网络A的11个权重层(8个卷积,3个全连接)到网络E的19个权重层(16个卷积,3个全连接)。卷积层的宽度(通道数量) 很小,从第一层的62个,经每个最大池化层乘以2,到512个。

下表是每个设置的参数量。尽管网络很深,但权重的数量与深度较浅但卷积层宽度和接收域更大的网络相似(1.44亿个Sermanet et al.2014)。


讨论

我们卷积网络设置与此前表现最好的如2012年Krizhevsky等在ILSVRC-2012和2013年Zeiler&Fergus,2014年Sermanet等的不同。我们在第一层卷积中不使用大接收域(Krizhevsky用了11×11,步长为4,Zerler&Fergus,Sermanet等用了7×7,步长为2),我们在整个网络使用非常小的3×3接收域,在输入的每个像素上卷积(步长为1)。容易看出堆叠两个3×3的卷积层(中间没有空间池化)有5×5接收域的效果;三个相当于7×7。所以为什么我们要使用三个堆叠的3×3卷积层而不是一个7×7层?首先,我们接入了3个非线性修正层而不是一个,这使决策函数更具分辨性。其次,我们减少了参数量,假设一个3层3×3的卷积堆叠输入和输出都有C个通道,则共有权重参数,而一个单层7×7卷积层有参数,多了81%。

加入1×1卷积层(设置C)提高了决策函数的非线性,但不影响卷积层的接收域。尽管我们使用1×1卷积作为同一维度空间的线性映射(输入和输出通道的数量相同),额外的非线性由修正函数引入。值得注意的是1×1卷积层被Lin等2014用于“网中网”结构。

小尺寸的卷积过滤器此前被Ciresan等2011使用,但他们的网络远远小于我们,并且未在大规模ILSVRC数据集上验证。Goodfellow等2014将深度卷积网(11权重层)用于街道数字识别并发现提高深度能取得更好表现。GoogLeNet(Szegedy等2014)独立开发了与我们相似的非常深度卷积网(22权重层)和小卷积过滤器(除了3×3,他们也使用了1×1和5×5)。但是他们的网络拓扑结构比我们的更为复杂而且特征图的空间分辨率在第一次减少更多以减少计算。我们的结构相较在单一网络分类精确度上更优。


原创粉丝点击