多通道(比如RGB三通道)卷积过程

来源：互联网发布：手机编程有什么输入法编辑：程序博客网时间：2024/04/29 09:29

http://blog.csdn.net/u014114990/article/details/51125776

今天一个同学问卷积过程好像是对一个通道的图像进行卷积，比如10个卷积核，得到10个feature map，那么输入图像为RGB三个通道呢，输出就为 30个feature map 吗，答案肯定不是的，输出的个数依然是卷积核的个数。可以查看常用模型，比如lenet 手写体，Alex imagenet 模型，每一层输出feature map 个数就是该层卷积核的个数。

1、一通道单个卷积核卷积过程

2、一通道多个卷积核卷积过程

一个卷积核得到的特征提取是不充分的，我们可以添加多个卷积核，比如32个卷积核，可以学习32种特征。在有多个卷积核时，如下图所示：输出就为32个feature map

卷积神经网络

3、多通道的多个卷积核

下图展示了在四个通道上的卷积操作，有两个卷积核，生成两个通道。其中需要注意的是，四个通道上每个通道对应一个卷积核，先将w2忽略，只看w1，那么在w1的某位置（i,j）处的值，是由四个通道上（i,j）处的卷积结果相加然后再取激活函数值得到的。所以最后得到两个feature map，即输出层的卷积核核个数为 feature map 的个数。

卷积神经网络

所以，在上图由4个通道卷积得到2个通道的过程中，参数的数目为4×2×2×2个，其中4表示4个通道，第一个2表示生成2个通道，最后的2×2表示卷积核大小。

下面是常见模型，理解一下每层feature map 个数，为上一层卷积核的个数

下图即为Alex的CNN结构图。需要注意的是，该模型采用了2-GPU并行结构，即第1、2、4、5卷积层都是将模型参数分为2部分进行训练的。在这里，更进一步，并行结构分为数据并行与模型并行。数据并行是指在不同的GPU上，模型结构相同，但将训练数据进行切分，分别训练得到不同的模型，然后再将模型进行融合。而模型并行则是，将若干层的模型参数进行切分，不同的GPU上使用相同的数据进行训练，得到的结果直接连接作为下一层的输入。

卷积神经网络

上图模型的基本参数为：

输入：224×224大小的图片，3通道
第一层卷积：5×5大小的卷积核96个，每个GPU上48个。
第一层max-pooling：2×2的核。
第二层卷积：3×3卷积核256个，每个GPU上128个。
第二层max-pooling：2×2的核。
第三层卷积：与上一层是全连接，3*3的卷积核384个。分到两个GPU上个192个。
第四层卷积：3×3的卷积核384个，两个GPU各192个。该层与上一层连接没有经过pooling层。
第五层卷积：3×3的卷积核256个，两个GPU上个128个。
第五层max-pooling：2×2的核。
第一层全连接：4096维，将第五层max-pooling的输出连接成为一个一维向量，作为该层的输入。
第二层全连接：4096维
Softmax层：输出为1000，输出的每一维都是图片属于该类别的概率。

4 DeepID网络结构

DeepID网络结构是香港中文大学的Sun Yi开发出来用来学习人脸特征的卷积神经网络。每张输入的人脸被表示为160维的向量，学习到的向量经过其他模型进行分类，在人脸验证试验上得到了97.45%的正确率，更进一步的，原作者改进了CNN，又得到了99.15%的正确率。

如下图所示，该结构与ImageNet的具体参数类似，所以只解释一下不同的部分吧。

卷积神经网络

上图中的结构，在最后只有一层全连接层，然后就是softmax层了。论文中就是以该全连接层作为图像的表示。在全连接层，以第四层卷积和第三层max-pooling的输出作为全连接层的输入，这样可以学习到局部的和全局的特征。

---------------------------------------------------------------------------------------------------------------------------------------------------------------------

下面讲一下，caffe中的实现。