Googlenet论文笔记

来源：互联网发布：金山词霸源码编辑：程序博客网时间：2024/06/05 22:30

GoogLeNet结构是由Christian Szegedy等人在2015年的CVPR上提出的一种卷积神经网络结构，至今已引用3000余次。

卷积神经网络(CNN)已经在今年来广泛应用于图像领域，不仅仅是图像分类，还有目标检测，图像分割等等。文中提到增加CNN的识别率的方法直观而言有两种：1增加网络深度。2增加网络的宽度，即每一层中卷积核的数目。但是显而易见的是这样做会使得参数急剧增加，在训练样本有限的情况下会造成过拟合的现象，训练所需的时间、计算资源也会大幅度增加。文中假设结构具有稀疏性，致力于寻找用已有的稠密卷积来找到最终的最优稀疏结构(how an optimal local sparse structure of a convolutional visionnetwork can be approximated and covered by readilyavailable dense components)。

文中提到之前的工作——NIN，在这个结构中使用了1*1的卷积，他们使用1*1的卷积仅仅是为了增加网络的深度，从而增加网络的分辨能力。而Christian Szegedy使用1*1的卷积主要是为了降维。将1*1卷积的输出设置小一些(即1*1卷积的卷积核数目设置小一些)就可以达到降维的目的。因此，最终的网络中的基本元素即为Inception module:

其中1*1的卷积主要是用来降维的，使得输出通道数降低，从而使得参数量大大减少。而已有研究证明在降维之后的输出后跟3*3或者5*5的其他卷积操作不会降低模型的表达能力，因此这个结构可以在不失分类能力的前提下有效降低参数量。注意这里的所有卷积操作和池化操作的步长都是1，padding形式都是要使得输入输出在图片尺寸上一致。否则无法实现Filter concatenation。

最终，作者给出了与VGG网络以及前两年的网络在分类的top-5 error对比，可以看出就图片分类这个问题上，GoogLeNet还是具有一定的优势的。

阅读全文

0 0