为什么很多做人脸的Paper会最后加入一个Local Connected Conv？

来源：互联网发布：windows安装更新慢编辑：程序博客网时间：2024/06/05 16:29

Deep face：论文。

a. 人脸检测，使用6个基点
b. 二维剪切，将人脸部分裁剪出来
c. 67个基点，然后Delaunay三角化，在轮廓处添加三角形来避免不连续
d. 将三角化后的人脸转换成3D形状
e. 三角化后的人脸变为有深度的3D三角网
f. 将三角网做偏转，使人脸的正面朝前。
g. 最后放正的人脸
h. 一个新角度的人脸（在论文中没有用到）

总体上说，这一步的作用就是使用3D模型来将人脸对齐，从而使CNN发挥最大的效果。

经过3D对齐以后，形成的图像都是152×152的图像，输入到上述网络结构中，该结构的参数如下：

Conv：32个11×11×3的卷积核
max-pooling: 3×3， stride=2
Conv: 16个9×9的卷积核
Local-Conv: 16个9×9的卷积核，Local的意思是卷积核的参数不共享
Local-Conv: 16个7×7的卷积核，参数不共享
Local-Conv: 16个5×5的卷积核，参数不共享
Fully-connected: 4096维
Softmax: 4030维

前三层的目的在于提取低层次的特征，比如简单的边和纹理。其中Max-pooling层使得卷积的输出对微小的偏移情况更加鲁棒。但没有用太多的Max-pooling层，因为太多的Max-pooling层会使得网络损失图像信息。

后面三层都是使用参数不共享的卷积核，之所以使用参数不共享，有如下原因：

对齐的人脸图片中，不同的区域会有不同的统计特征，卷积的局部稳定性假设并不存在，所以使用相同的卷积核会导致信息的丢失
不共享的卷积核并不增加抽取特征时的计算量，而会增加训练时的计算量
使用不共享的卷积核，需要训练的参数量大大增加，因而需要很大的数据量，然而这个条件本文刚好满足。

全连接层将上一层的每个单元和本层的所有单元相连，用来捕捉人脸图像不同位置的特征之间的相关性。其中，第7层（4096-d）被用来表示人脸。

全连接层的输出可以用于Softmax的输入，Softmax层用于分类。

阅读全文

0 0