《Deep Learning Face Representaion from Predicting 10000 Classes》读书报告

来源：互联网发布：pop3协议默认端口号编辑：程序博客网时间：2024/06/06 01:17

1、基本思想

训练多个深度卷积神经网络(deep ConvNets)对输入的人脸块(face patches)进行特征提取,然后训练每一个卷积神经网络(以下简称为ConvNet)的目标是对输入的face patch进行分类，这一步是有监督的训练，即每一个face patch对应于一个类别标签，每一个ConvNet的输出节点数目是相同的，即160维。然后所有的这些ConvNets的输出(不是那个预测类别信息的输出，是该预测类别信息的前一层，即160维)就是提取到的特征，称为

Deep hiddenidentity feature(DeepID)，将这些特征连起来(concatenate),送入到Joint Bayesian或者再接一个神经网络，进行Faceverification.整个过程可用下面两幅图来说明(以用神经网络进行Faceverification为例)：

第一阶段，提取特征

第二阶段：Faceverification

2、网络结构=

一个ConvNet的结构如下：

这是一个有4个卷积层(除第4个卷积层外0每一个卷积层后面接一个max-pooling层)的网络。特别之处在于DeepID那一层和第4个卷积层以及第3个卷积层后面的max-pooling层全连接。作者解释说这样做的是因为第4层卷积层含有的神经元的个数太少，成为信息传递的瓶颈。这样做就是作者所谓的Multi-scaleConvNets.第4个卷积层提取到的特征是比第3个max-pooling层更加具有全局性的特征。然后这个DeepID接一个softmax进行分类。这样提取到的特征是对类间具有很好的判别性的，相当于增加了类间的距离。(个人理解，从作者的另外一篇文章《DeepLearning Face Representation by Joint Identification-Verification》的得出)。

上述ConvNet输入是,k=1是灰度图，k=3是RGB三通道图。输入图的尺寸发生变化，则后面的卷积层的尺寸相应发生变化。预测的类别数目发生变化，相应的softmax层尺寸也发生变化。（这样说法是否正确？）但是无论如何，DeepID层是固定的160维，不发生改变。

这个卷积过程跟普通的卷积神经网络一样，每个卷积后面的相应函数式ReLU,这个是被实验证明了（在这篇文章中提到）比sigmoid函数的有更好的拟合能力。

3、特征提取过程

首先对人脸图片标记5个点(5 faciallandmarks)，包括两个眼睛，鼻尖(nose tip)，和两个嘴角，然后以这5个点为中心对齐(alignment)。特征是从60张facepatches,提取出来的，这60张face patches包括10个不同的区域，3种尺度的灰度图或RGB图。下面一幅图显示了10个人脸区域，3种尺度。

一共训练60个ConvNets,每一个ConvNet提取两个160维的特征,即一个face patch和该face patch水平翻转后的相对应的face patch.好比一个人的左侧图和右侧图一样。最后DeepID共19200()维。

4、第一部分的第二幅图的说明，Faceverification阶段

该部分的神经网络的输入是60组，即前面那60个ConvNets的输出，只是每一组变成了640维，这是因为要进行faceverification，当然得输入两张人脸图片，来判定这两张人脸图片是不是来自同一个人。每一张face patch包括做侧面和右侧面，320维，故每一组共640维。这里需要注意的是，从face patch学习到的毕竟是局部特征，将这些face patch组合起来再训练一个神经网络，这样从局部特征中学到一种全局性的特征。第一个隐藏层和这60组是局部连接的，这样做是迫使该隐藏层能够学习到该局部face patch压缩的特征表示，然后这个隐藏层和跟它节点数目相同的隐藏层进行全连接，以求学到全局特征。最后再接一个二分类器，来判定是否来自同一个人。隐藏层的相应也是用的ReLU,并且同时对所有隐藏层节点使用了dropout方式。使用dropout对于使用梯度法来训练网络是必须的，因为不用dropout而学习高维特征会带来梯度扩散(gradientdiffusion)问题。

5、实验结果

大致来讲，作者是在CeleFaces上进行训练，然后再LFW上进行测试，因为LFW每个人含有的图片平均来将很少，只有85个人有超过15张的图片，4096个人只有一张图片。这对训练一个身份分类(identityclassifiers)是不够的。同时作者在开头也提到DeepID的推广能力会随着在训练阶段有更多的类别而增强(The generalizationcapability of DeepID increases as more face classes are to be predicted attraining)。

1 0