ImageNet Evolution论文笔记（3）

来源：互联网发布：2016欧洲杯数据编辑：程序博客网时间：2024/05/18 16:14

Going deeper with convolutions

说明：improve utilization of the computing resources inside the network， This was achieved by a carefully crafted design that allows for increasing the depth and width of the network while keeping the computational budget constant. To optimize quality, the architectural decisions were based on the Hebbian principle and the intuition of multi-scale processing.提升了计算资源的利用率。在网络需要的计算不变的前提下，通过工艺改进来提升网络的宽度和深度。最后基于Hebbian Principle和多尺寸处理的直觉来提高性能【减少参数，降低计算；增加宽度、深度】。

Architectural Details

核心组件Inception Architecture
Split-Merge：增加网络对多尺度的适应性；增加网络宽度；
Bottleneck Layer【使用NiN】：1x1卷积进行特征降维，大幅降低计算量10x
这里写图片描述

GoogLeNet

1，所有的卷积包括Inception都使用ReLU，训练图像大小为224x224，RGB三通道，减均值。“#3x3 reduce”和“#5x5 reduce”表示1x1 reduction layer的数量。“pool proj”表示max-pooling后1x1 projection layer的数量。在网络中，并没有完全使用Inception，一开始的三层使用的是原始的卷积，这样是出于技术的原因（memory efficiency during training），但不是必须。
2，网络中的最后使用的是average pooling，而不是全连接，结果发现可以提高0.6%，但使用dropout是必要的，使用linear线性层是为了方便fine-tuning模型。
3，另外，发现在网络中间层产生的特征很有判别性，所以在中间层添加辅助分类器（auxiliary classifiers）希望在较浅的层中获得具有判别性的分类器，为反传过程增强梯度并且增强正则化。在训练过程中这些损失都会加权计入总损失（0.3）
这里写图片描述
2个辅助分类器：深网络中，梯度回传到最初几层，存在严重消失问题；有效加速收敛；测试阶段不使用。

提升准确率的技巧

1，集成方法：训练了7个相同结构的GoogLeNet模型，初始化方法，学习率调整策略相同，图像采用（patch）以及随机输入的顺序不相同。
2，aggressive cropping方法：ILSVRC中使用的很多图是矩形，非正方形。将图像resize成4种scales，使得最短的边分别为256，288，320和352，然后从左、中、右分别截取方形square图像（如果是肖像图像，则分为上、中、下），然后对于每个square图像从4个角及中心截取224x224 square images，并把原square图像resize成224x224，在对上面5种做镜像变换。所以这样一幅图像可以得到4x3x6x2=144个crops。参考：Imagenet classification with deep convolutional neural networks
3，multiple crops的softmax概率取平均效果最好。

阅读全文

0 0