Googlenet论文笔记

来源:互联网 发布:金山词霸源码 编辑:程序博客网 时间:2024/06/05 22:30

GoogLeNet结构是由Christian Szegedy等人在2015年的CVPR上提出的一种卷积神经网络结构,至今已引用3000余次。

       卷积神经网络(CNN)已经在今年来广泛应用于图像领域,不仅仅是图像分类,还有目标检测,图像分割等等。文中提到增加CNN的识别率的方法直观而言有两种:1增加网络深度。2增加网络的宽度,即每一层中卷积核的数目。但是显而易见的是这样做会使得参数急剧增加,在训练样本有限的情况下会造成过拟合的现象,训练所需的时间、计算资源也会大幅度增加。文中假设结构具有稀疏性,致力于寻找用已有的稠密卷积来找到最终的最优稀疏结构(how an optimal local sparse structure of a convolutional visionnetwork can be approximated and covered by readilyavailable dense components)。


文中提到之前的工作——NIN,在这个结构中使用了1*1的卷积,他们使用1*1的卷积仅仅是为了增加网络的深度,从而增加网络的分辨能力。而Christian Szegedy使用1*1的卷积主要是为了降维。将1*1卷积的输出设置小一些(即1*1卷积的卷积核数目设置小一些)就可以达到降维的目的。因此,最终的网络中的基本元素即为Inception module:


其中1*1的卷积主要是用来降维的,使得输出通道数降低,从而使得参数量大大减少。而已有研究证明在降维之后的输出后跟3*3或者5*5的其他卷积操作不会降低模型的表达能力,因此这个结构可以在不失分类能力的前提下有效降低参数量。注意这里的所有卷积操作和池化操作的步长都是1,padding形式都是要使得输入输出在图片尺寸上一致。否则无法实现Filter concatenation。

最终,作者给出了与VGG网络以及前两年的网络在分类的top-5 error对比,可以看出就图片分类这个问题上,GoogLeNet还是具有一定的优势的。

原创粉丝点击