Going deeper with convolutions

来源:互联网 发布:人工智能众包服务平台 编辑:程序博客网 时间:2024/04/29 11:50

1. 动机

提高深度网络的性能可以通过加深网络的深度和宽度,但是缺点是容易过拟合且计算量大。所以应该采用稀疏连接结构代替全连接结构,但是现有设备对稀疏计算并不高效,所以依然只采用稠密计算。Inception是一种逼近稀疏连接的结构。

2. 结构细节

Inception主要思想是在卷积网络中逼近最优局部稀疏结构,一旦找到就可以在空间上重复使用。在逐层构建中,分析上一层的相关性统计并将高相关性的单元聚集到一起。这些聚集的单元构成了下一层并和上一层单元连接。假设每个单元只关联输入图像的一个局部区域,那么就可以让每个聚集集合都关联这个局部区域,在下一层使用1×1卷积来利用这个局部区域。然而,我们同样期望会有少量的关联更大区域的聚集集合,它们会使用较大的patch,区域越大patch的数量就会减少。为了将patch对齐,Inception同时采用了1×1,3×3,5×5的卷积滤波路径。所有滤波的输出结果串联起来形成一个输出并输入到下一层。同时增加一个pool路径会有好的效果。

Inception module

这些Inception堆叠在一起后,它们的输出相关性统计就会变化:随着层数的增加,特征越来越抽象,关联的空间区域越来越大,因而高层中3×3和5×5的卷积滤波比例应该增加。
由于各个路径的输出结果串联,越到高层输出规模越大,这导致计算复杂度高效率低。从而引入降维映射结构来降低部分输出规模。低维嵌入压缩能够包含图像较大patch的信息,但是经过压缩后的信息不好去建模。我们需要保持大多数地方稀疏表示,而在全体聚合的时候压缩信号。也就是可以在计算代价高的3×3和5×5卷积之前采用1×1降维。除了降维还有利用它的relu激活。
这样的结构能够在每层增加单元而并不引起计算复杂度的剧烈增加。在卷积之前首先降维可以屏蔽大量的输入进入下一层。另外,视觉信息以多种尺度处理并聚合在一起,从而下一层可以在不同尺度同时提取信息。
这样的计算资源使用可以同时增加网络的宽度和深度,Inception也可以使用效果差一些但计算更简单的结构,这样控制计算平衡的结构比一般的速度更快。

3. GoogLeNet

Inception的宽度和深度可以增大,性能可以较差,但是聚合起来可以略微改善结果,但是这些具体的结构参数的影响是次要的。所有的激活都使用relu。输入是3×224×224去均值的RGB图像,“#3×3 reduce” 和 “#5×5 reduce”表示在3×3和5×5卷积之前1×1降维后的维度。最后采用了全局平均池化和dropout,并在其后另外使用了一般的线性层MLP层,可以方便调整网络应用于其他的标签集。

table

深度网络梯度反向传播的能力值得考虑。浅层网络观察得到,在网络的中间层产生的特征具有较强的识别能力。通过在这些中间层增加辅助的分类器,我们增强了这些分类器低层的识别能力,增强了反向传播的梯度信号,也提供了额外的正则项。这些分类器置于Inception(4a)(4d)的输出部分,训练时它们的损失加权在总体的损失之上(辅助分类器的权重是0.3),预测时则去除这些网络。(在引入了batch normalization后,辅助分类器可以去除)

4. 训练方法

CPU实现,随机梯度下降0.9动量项,学习率每8epochs降低4%,采样图片的多种尺度8%~100%,纵横比随机选3/4和4/3。增加图片的光学形变可以抑制过拟合。使用随机插值算法来缩放图片大小。
1. 独立训练7个相同的模型,聚合预测结果。模型初始化都相同,只改变图片采样方法和输入的顺序;
2. 测试的时候将图片缩放成4种尺度,短边分别为256,288,320,352,分别取左、中、右正方形区域,每个正方形区域取4个角和中间的224×224切片以及正方形区域缩小到224×224的大小,还包括所有镜像对称后的图片。最后结果是每张图片具有切片数为4×3×6×2=144。但是当切片具有一定数量后再增加影响不大。
3. 最终的预测是取所有的切片的简单平均,再取所有分类器的简单平均。
实现方法参考GoogLeNet in Keras

googlenet

0 0
原创粉丝点击