FaceBook 论文：DeepFace: Closing the Gap to Human-Level Performance in Face Verification 笔记

来源：互联网发布：库里个人数据统计编辑：程序博客网时间：2024/05/21 10:59

近期进行了一些人脸识别领域的review，读了几篇文章，故对相关内容加以记录。
相关概念：
1、 Face detection : 检测图像中的人脸，并不识别其身份。
2、 Face recognition: 在人脸检测的基础上，识别检测到的人脸的身份信息。
3、 Face verification: 验证两张人脸是否为同一身份。

DeepFace这篇文章由FaceBook AI 团队于2014年发表
论文下载链接：http://ieeexplore.ieee.org/document/6909616/?arnumber=6909616&tag=1

1.研究问题

使用3D人脸模型对齐人脸，使用9层深度神经网络结合超大量人脸数据实现高精度人脸识别与人脸验证。

2.此文工作

传统的、常用的人脸识别与验证流程：人脸检测 —> 人脸对齐 —> 特征表达 —> 分类、识别、验证
此文改进了人脸对齐、特征表达部分

2.1 人脸对齐方法

这里写图片描述
分为以下几个步骤：
a. 检测人脸上的6个基准点
b. 将这6个点通过旋转、缩放到对应的锚点，得到2D对齐人脸。但是2D对齐不能完成“平面外”的旋转
c. 在2D对齐人脸上检测67个基准点，将这些点Delaunay三角化，轮廓处添加三角形避免不连续
d. 将三角化后的人脸转换成3D形状
e. 三角化后的人脸变为有深度的3D三角网
f. 将三角网做偏转，是人脸的正面朝前
g. 最后放正的人脸
h. 可以变换成不同角度的人脸，但是论文中并没有用到
经过人脸对齐，可以认为人脸的特征固定在某些特定的位置上，便于深度网络的特征提取。

2.2 人脸特征表达

在此之前，人脸特征一直由人造特征表达，如LBP，Haar-Like 等。由于大量人脸数据的获取，基于学习的方法超过了传统的人工特征。此文采用深度卷积神经网络提取特征。

2.2.1 网络结构

这里写图片描述
经过3D对齐后，形成的图像是152*152，网络结构（共1.2亿个参数）：
 Conv：32个11 11 3的卷积核
 Max-pooling：3 3，stride = 2
 Conv：16个9 9 32的卷积核，到这一层是提取出一些低层特征，比如简单的线或纹理
 Local-Conv：16个9 9 16的卷积核，Local 表示参数不共享
 Local-Conv：16个7 7 16的卷积核，参数不共享
 Local-Conv：16个5 5 16的卷积核，参数不共享
 Fully-connected：输出为4096维。
 Softmax：输出为4030维
另外一些细节：激活函数：ReLU max(0,x)、产生的网络非常稀疏、采用L2 正则化
L4、L5、L6参数不共享的原因：图像是已经对齐的，每个特征处在固定的位置上，不同的人脸区域（眼睛和眼皮）具有不同的特征，不能采用相同的参数；而且这样做L6的输出也是由输入层较大区域（74 74 3）卷积得到的，可以获得全局信息的综合；不采用参数共享，需要训练的参数量大大增加，因此需要很大的数据量，这个条件他们团队是可以达到的，400万张人脸图像，4030个人。
思考：传统的网络使用参数共享，每个卷积核都只提取同一特征，但是这种网络基本上都采用很多个卷积核，可以提取多种特征。在此方法中，由于已经固定了人脸上的特征位置，不同位置特征不同，需要不同参数，没有必要用参数共享但是多卷积核的方式，这个网络得到的特征图较少，可以加快检测速度并减少内存使用。

2.3 人脸验证

给定提取出的两个人脸图像特征f_1、f_2，判断是否为同一人.

2.3.1 χ^2 distance

相似性度量：χ^2 (f_1,f_2 )=∑_i w_i (f_1 [i]-f_2 [i])^2/(f_1 [i]+f_2 [i])
其中权重w由SVM 训练得到，元素为(f_1 [i]-f_2 [i])^2/(f_1 [i]+f_2 [i])

2.3.2 Siamese network

2005年一篇文章提出的网络，特点是接受两张图片作为输入，有如下特点：
如果样本对的标记一致，距离很近
如果样本对的标记不一致，距离大于margin
距离度量方式：d(f_1,f_2 )=∑_i α_i |f_1 [i]-f_2 [i]|

2.4 实验结果（LFW）97.25%

这里写图片描述

3.总结

意义：此文是第一个真正将大数据和深度神经网络应用于人脸识别和验证的方法；人脸识别精度接近人类水平。
缺点：方法非常粗暴，直接采用海量数据训练网络得到特征；需要3D对齐，步骤繁琐复杂。

0 0