Going deeper with convolutions

来源：互联网发布：深圳二手房成交数据编辑：程序博客网时间：2024/04/29 07:31

主要贡献： Googlenet,22层的深度网络。充分利用了网络中的计算资源，通过增加网络的宽度及深度实现。结构决策基于Hebbian原则和多尺度处理。网络结构引入了Inception模块，名字来源于Net in Net，在ILSVRC2014上获得state of the art的成绩。

问题提出：提升网络性能的方法——增加网络的尺寸会导致两个问题：过拟合及大量的计算资源的需求。最近的关于稀疏矩阵计算的研究表明，将稀疏矩阵聚类为相对致密的子矩阵可在矩阵相乘时获得较好的效果。Inception 结构即在试图用相对致密的组件模拟卷积网中的局部稀疏结构。

高层网通常是图像局部信息的摘要，使用3×3或5×5卷积会导致参数变多，1×1的卷积核用来降维，作者设计的Inception模块如下图所示：

这里写图片描述

GoogleNet的网络结构如下表：
这里写图片描述

处理区域是224×224的RGB图像，#3×3reduce及#5×5reduce表示1×1降维滤波器的数目，只算有参数的层时网络深度是22层，加上池化层总共27层，网络结构的总共层数是100。有个相对浅的网络能够提供较好的结果，表明网络中间的几层提取的特征重要性比较明显。在Inception4(a)~Inception4(d)上附加分类器，训练中它们的损失计入总损失。
网络的具体结构，包含附加分类器如下：
1.平均池化5×5，步长为3，（4a）生成4×4×512，（4d）生成4×4×528
2.1×卷积128滤波器用于降维
3.全连接层1024节点
4.dropout层，70%drop。
5.softmax分类器，1000类。

在分类时加了几个trick，一是训练了7个版本的模型，每个模型的初始化一样，仅采样方式或看到图像的顺序不同。二是在测试时，对不同resize或crop的图像进行softmax估计，将结果平均。7个模型打分的结果如下：

这里写图片描述

0 0