剖析手写数字识别器LeNet-5认识卷积网络

来源：互联网发布：淘宝上下架操作编辑：程序博客网时间：2024/05/11 01:03

关于卷积神经网络（CNN）的博客网上非常多，也有很多大牛们讲得生动形象，令人十分佩服，也给我的学习带来了很大的帮助，但是关于LeNet-5的具体剖析感觉还没有一篇博文讲得很清楚，本着菜鸟服务菜鸟的精神，写一个通过详细介绍LeNet-5手写识别器的过程来认识卷积网络。

CNN的核心思想无非三种：

1、局部感受野：每个神经元感受局部图像区域；

2、权值共享：同一个滤波器下，每个神经元权值参数是一样的；

3、时间或空间亚采样：模糊图像，带来更好的泛化性能。

其实理解CNN的方法有很多种，比如一个Map是28*28，让它去卷积上一层的Map，怎么看呢？可以看作是28*28个神经元走一次（因为“局部感受野”和“权值共享”嘛）。所以，可以把一个Map叫做一个滤波器，也可以把一个神经元叫做滤波器。

下面介绍这次博文的主题，典型的用来识别数字的卷积网络LeNet-5。当年美国大多数银行就是用它来识别支票上面的手写数字的。能够达到这种商用的地步，它的准确性可想而知。上图。

由图知输入的图像是32*32格式的。

第一步，C1层，也就是卷积层的第一层。一共有6个Map，每个Map分辨率是28*28，每个神经元的分辨率则是（32-28+1）*（32-28+1）=5*5，我们可以把这个神经元看作一个滤波器，而这就是局部感受野，因为一个滤波器只感受5*5的风景。又因为权值共享，同Map下所有的神经元感受的特征都是一样的，所以这整个Map都只能算一个滤波器。每个Map算一个滤波器，每个滤波器有（5*5+1）个参数，28*28个神经元是重复被6个滤波器使用的，每个神经元一共有（5*5+1）*6=156个参数，这里要注意一点，这里是6个滤波器卷一个Map，所以有6个偏置。假如6个滤波器卷两个Map呢？还是只有6个偏置，因为被卷的Map不论数量只算一个偏置。一共有156*（28*28）=122304个连接。

第二步，S2层，下采样层，模糊图像，提高泛化性。6个Map，每个Map14*14，size=2*2，卷积层有重叠，而采样层无重叠，所以每个Map=上一层Map分辨率28*28/size 2*2=14*14。采样层参数计算方法和卷积层也不一样，每个滤波器有可训练参数和可训练偏置两个参数，所以一共有2*6=12个参数。而采样层又是特殊的卷积层，只不过是卷积核为2*2（pool size），所以连接数计算方法不变，一共有（2*2+1）*14*14*6=5880个连接。

第三部，C3层，卷积层。16个Map，每个Map有10*10个神经元，每个神经元分辨率为（14-10+1）*（14-10+1）=5*5，前6个Map卷S2中3个相邻Map，接下来6个Map卷S2中4个相邻Map，接下来3个卷S2中4个不相邻Map，最后一个卷S2中所有Map。一共有6*（3*5*5+1）+6*（4*5*5+1）+3*（4*5*5+1）+1*（6*5*5+1）=1516个参数，一共有1516*10*10=151600个连接。

第四层，S4层，下采样层，16个Map，每个Map有5*5个神经元，pool size=2*2。有32个参数，有（2*2+1）*5*5*16=2000个连接。

第五层，C5层，卷积层。有120个Map，每个神经元与S4的16个Map的5*5相连，所以C5的Map为（5-5+1）*（5-5+1）=1*1个神经元。一共有120*（16*5*5+1）=48120个参数，有1*1*48120个连接。

第六层，F6层，全连接层，84个Map，一共有84*121=10164个参数。

0 0