人脸识别之人脸对齐（五）--ESR算法

来源：互联网发布：java读文件乱码编辑：程序博客网时间：2024/04/27 14:54

原文：http://www.thinkface.cn/thread-2911-1-2.html 原文翻译我看的好蛋疼，完全机器翻译。甚至怀疑作者是否有通读过一次。。。。这里再修改下。

我们提出了一种非常有效、高准确率的人脸对齐方法，将其称为“显式形状回归”.和之前的一些基于回归的方法不同，通过训练数据最小化对齐错误函数，学习一个向量回归函数直接推断整个面部形状（一个特征点集合）。在一个级联的学习结构中，固有的形状约束被编译成一个回归向量。对于粗糙的图片也能得到很好的效果。这个方法不同于之前的方法，没有使用一个固定的参数形状模型。
为了使这个回归更有效，我们设计了一个二级boosted回归，形状索引特征和一个基于关联的特征选择方法。这样组合使我们能在很短的时间内通过大量的训练数据得到一个精确的模型（2000个训练图片使用了20分钟）。而且这个回归在测试阶段非常快（对于87个特征点的形状使用了15分钟）。具有挑战性的实验数据显示，我们的方法明显优于国家的最先进的精度和效率两个方面。
1.介绍
在人脸识别，人脸跟踪，人脸动画和3D人脸建模中，人脸对齐或面部特征点定位,如眼睛，鼻子，嘴和下巴，是必不可少的任务。随着个人和网络照片增长，需要一个全自动、高效、强大的人脸对齐方法。目前的做法在无约束的环境中，由于面部美观，照明和部分遮挡的变化，这样的需求仍然存在很大的挑战。
一个脸部形状包含了个人脸特征点，给出一张实际的图片，人脸对齐的目的就是估计一个形状尽可能地接近真实形状，即最小化：(论文公式（1）)
这个对齐误差方程（论文公式1）通常用于数据的训练和人脸的估算。然而，在测试阶段，我们不能够直接最小化该式子，真值是未知的。如何对S进行估算，大部分的对齐方法被分成了两类。一类是基于优化的，另一类是基于回归的。
基于优化的方法是最小化另外的一个误差函数。这些方法都依赖于误差函数的选择。例如，AAM方法[13，16,17,13]使用了一个表现模型重建了整个人脸，通过最小化纹理残差来估算这个形状。但是这个模型仅仅限制于位置、表情和光照，对于不可见的图片效果非常不理想。同时，我们还知道AAM对初始化特别敏感。
基于回归的方法是训练一个回归函数，这个函数能够直接刻画一个人脸的表面。这些复杂的变量从庞大的训练数据中获取，在测试阶段是非常有效的。然而，之前的一些方法[6,19,7,16,17]在实现误差函数最小化中存在着一些缺点。在[7,16,17]中的这些方法依赖了一个参数模型（例如AAM）,在训练过程中使参数错误最小。这是一个不直接的方法，因为小的参数误差不代表小的对齐误差。在[6,19]中的方法对个体的特征点进行了回归，很高效地使用了式(1)作为他们的误差函数。然而，由于他们在训练过程中仅仅地使用了局部的一些特征点区域，特征点之间的一些外观联系没有充分利用，这种回归通常非常薄弱，不能够操作大量的姿态变量。
我们注意到在所有的方法中，形状约束是必备可少的。仅仅的一些显著的特征点（例如眼瞳，嘴角）在一幅图片的表面是有明确的特征的。很多其他不显著的一些特征点（例如人脸轮廓的这些点）需要在形状约束的条件下得到，这就是特征点之间的联系。许多之前的一些工作使用了一个参数模型去服从这个约束，例如PCA方法在AAM[3,13]和ASM[4,6]中。
尽管这个参数模型的成功，但是这个方法的灵活性不是很好，此外，使用一个固定形状模型在对齐迭代过程中有时不会得到理想的结果。例如，初始状态（形状远离目标形状），要达到快速收敛，得到更好的调整，使用这样的一个限制模型不是最好的。在之后的阶段（这个形状已经粗约地对齐）,我们可以使用一个更灵活的形状模型和更多灵活的变量来进行微小的调整。我们知道，采用如此的一种形状模型在文学中很少被采用。
在这篇文章中，我们将呈现一种新颖的基于回归的人脸对齐方法，在这个方法中我们没有采用任何参数形状模型。通过训练数据明确地最小化对齐误差函数来训练出回归量。所有的面部特征点都以一个向量输出。我们的回归量实现了没有参数的形状约束方法：这个回归的形状都是所有训练图片形状的一个线性组合。此外，使用整个面部特征应用于所有的特征点中比使用独立的特征点小区域更有效。这些能够使我们训练出一个灵活的模型。我们称这种方法为“显式形状回归”。
在大量的图片外观变量下，级联地回归整个面部形状是具有挑战的。我们设计了一个boosted回归逐步地推断面部形状。这早期的回归操作大量的形状变量，保障了鲁棒性，在之后操作一些小的象征变量，确保准确性。因此，这个形状约束从粗糙到细致合适地执行，在一个自动的方法。图片1是一张插图。在2.2部分有详细的说明。
在显式形状回归结构中，我们还设计了一个两级boosted回归，高效的形状特征索引和一个快速的基于关联的特征选择方法。以至于(1)我们能够快速地从大量的训练数据学习精确的模型（在2000张训练样本中使用了20分钟）；（2）这个回归结果在测试中非常有效（87个人脸特征点使用了15ms），我们在几个挑战性的人脸数据上得到了惊人的结果。
2.基于回归的人脸对齐
在这一部分，我们介绍了基本的形状回归架构和如何去匹配人脸对齐问题。
我们使用了boosted回归方法[9,8]用增量方式合并T个弱回归器（R1，R2，R3,...RT）。给出一种实际的图片和一个初始化的人脸形状,每个回归量通过图片特征计算出一个形状增量δS，逐步地更新人脸形状，如下的级联方法（论文公式2）：
其中第t次弱回归量Rt将之前的形状St-1更新到新的形状St。
注意到这个回归量Rt同时依赖于图片和之前估算的形状St-1。我们将会在之后进行详细说明。我们使用了和之前的形状有关联的形状索引特征学习每一个Rt。这样的特征能够提高boosted回归实现更好的几何不变性。这个同样的方法也在[7]中使用。
给出N个训练样本，这个回归量（R1,R2...RT）连续地被训练，直到这个训练误差不再减小。每一个RT被训练，通过明确地最小化对齐误差总和。论文公式3.
其中是上一阶段估算的形状。
2.1二级形状回归
早期的方法使用了一个简单的弱回归量，例如一个树桩决策树[6]和fern（类似TLD中的Random fern）在类似的boosted回归方法。然而，在我们最近的实验中，我们发现，这些回归量非常弱，在训练中，收敛特别慢，在测试中，性能比较差。我们推测这是由于这个极端的困难问题：回归整个面部形状（非常多的特征点）是非常困难的，在很大的图片外观变量和粗略的初始形状。一个简单的弱回归减少得非常慢，不能得到推广。
学习一个好的弱回归量，能够快速减少错误是非常重要的，我们提出了一种方法，通过一个二级boosted回归学习每个弱回归Rt = (r1，r2,...rk)，例如，这个问题类似于（2）（3），但是这个主要的不同是在第二级回归中，形状索引图片特征是固定不变的，例如，他们仅仅依赖于St-1，当r学习好以后，这些特征是不改变的。这是非常重要的，由于每个r相对较弱，允许特征索引时刻改变的是不稳定的，因此，这个固定的特征能够使训练更快，这个将在之后详细描述。在我们的实验中，我们发现使用了一个二级boosted回归更加准确。举例：T=10,K=500比一级的T=5000更好。在表格3中有展现。
在下面，我们将描述如何学习每个弱回归量。为了便于记忆，我们称他为一个原始的回归量，索引为k。
2.2原始回归
我们使用了一个fern作为我们原始的回归量r。这种fern方法第一次在[15]中提出，之后在[7]中被引用。一个fern由F个特征组成(论文中取5)，将特征空间（所有的训练样本）分成了2^f个二值. 每个二值 b与最小化对齐误差下的输出增量有关（论文公式4）：

，其中为Si为早期步骤中的估算形状。这问题（4）的解为平均形状偏差。论文公式5.
为了克服在组中训练样本比较少的情况下过度拟合，引进了一个收缩参数[9，15]，论文公式6
其中是一个收缩参数，当这个组有足够的训练样本，将没有效果，否则，将会降低了估计结果。
无参数的形状约束

通过学习一个回归向量，明确最小化形状对齐错误函数（式1），形状之间的关联被呈现。因为每次个形状更新是一个增量（式2），每一个形状增量是一个训练形状的线性组合（式5，式6）。很容易看出最终的回归形状是初始形状加上训练象征的线性组合：论文公式7。
因此，只要这个初始化满足形状约束，在由所有的训练形状构成的线性子空间里,这个回归的形状总是被约束.实际上,在回归中的任何中间形状都满足这个约束.和之前的固定形状模型PCA相比，在学习阶段，这个没有参数的形状约束更好地被应用。
为了说明自适应形状的约束，我们对所有存储的第一级弱归回量用的形状增量执行PCA。在图1中所示，这些形状空间的本征维数（通过保留含95％的能量）在学习过程中增加。因此，形状约束是在归回中是以粗到细的方式自动编码的。图1还示出了第一的三个主要组成部分在第一和所学的形状的增量（加上一个平均形状）最后阶段。从图片（c）(d)可以看出，由第一级回归量了解到的形状更新为主通配符人毛坯形状的变化，如偏航，滚动和缩放。相比之下，形状更新的最后阶段回归量是占主导地位的微妙变化，如面部轮廓，运动的口，鼻和眼睛。
2.3形状索引（图像）功能
为了实现高效的回归，我们使用简单的像素差分特征，如在图像中的两个像素的强度差。这些特征是非常容易计算而且，在足够的训练数据条件下[15，18，7]也很强大。一个像素的索引相对于原始图像的坐标，和相对于估计形状，后者是更好的。在 [7]中也有类似的想法。这实现了更好的几何不变性，使回归问题更容易，收敛更快。
为了实现特征对脸尺度和旋转不变性，我们首先对当前形状做一个类似变换，使其归一化到平均形状（即由最小二乘法拟合的所有面部特征点估计出的形状）。以前的文章[6，19，16]需要对图片做转换来计算类HAAR特征。在我们的例子中，我们用变换像素坐标返回到原始图像来计算像素差分特征，这是更为有效率的。
在一般的形状中，都采用了一个简单的方法来索引像素，即利用其全局坐标。对于简单的形状，例如椭圆，这是很不错的，但对于非刚性形状（如脸形）是远远不够的。
因为最有用的特征是分布在显著的特征点旁边，如眼睛，鼻子和嘴，特征点3D/表情/身份。在这项工作中，我们建议使用相对于它最近的特征点的局部坐标最为他的索引坐标。正如图2所示，例如索引持有对上面提到的变化，使该算法的鲁棒方差。
对于第一级的每个的弱回归量，我们随机抽样像素。生成了个像素差分特征。现在，新的挑战是如何快速地选择有效的特征，在如此大的一个数据中。
2.4基于相关性的特征选择
要形成一个良好的fern回归量，我们需要在个特征中选择特性。一般随机生成若干个fern,形成一个fern池，从中选择出使回归误差（4）中最小的一个 [15,7]作为最终的fern。我们将这种方法表示为n-Best，其中n是池的大小。由于组合爆炸，评价（4）可用于所有的组合物的功能是不可行的。如表4中所示，将n从1增到1024，该错误仅轻微降低，训练时间显著增长。
为了在更短的时间找到巨大的特征空间，产生更好的fern。我们利用特征之间的相关性进行目标回归。我们的目标是矢量 delta 形状（真实形状与当前估计形状的差异）。我们预计，良好的fern应该满足两个特性：（1）在fern中的每个特征对于目标回归应该有高度识别性;（2）特征之间的相关性应该较低,他们互补。
为了找到满足这些属性的特征，我们提出了一种基于相关性的特征选择方法：
1．项目的的回归目标（矢量三角形形状），产生一个随机的方向标。
2．在 P个特性中，选择功能相关的标量最高。
3．重复步骤1、2。F次迭代获得F个特征。
4．构建一个fern,包含了F个特征和阈值。
随机投影有两个目的：它可以保持接近[2]，使得相关的功能的投影也有歧视性的三角形状，在多个投影刮胡子低的相关性有很高的几率，并有可能选定的功能是互补的。如表4所示，基于相关的方法可以选择好等特点，在很短的时间，比当时最好的方法要好得多。
更快的相关性计算：我们很容易看出在第二个步骤中，需要分别计算个特征与随机投影的相关性，这计算量是非常大的。幸运的是，这个计算复杂度可以从减少到。随机投影和一个差分特征之间的关系可以分成三个部分：，，。在第一级回归中，所有的形状像素索引都已经固定，计算随机投影与个像素之间的相关性的复杂度变成。
3.实现细节
我们讨论更多的实现细则，包括在训练和测试中的形状初始化，参数的设置和运行性能。
训练数据增强每个训练样本包含了一个训练图像、一个初始形状和一个真实形状。为了达到更好的对齐性能，我们增加了训练数据，通过随机抽样的训练样本图像中的多个形状（在我们的实验中为20个）作为每个训练图像的初始形状。在测试过程中，这对大型姿态变化和粗糙的初始形状是非常有效的。
测试多个初始化形状:对于不同的测试图像和多初始化形状，这个回归量都能给出合理的结果。如图3所示，当多个像素估计紧紧地聚集，其结果是准确的，反之亦然。在测试中，我们进行了多次实验，最终以中间结果作为最终估计。每次的初始形状都是从训练样本形状中随机选取的。这进一步提高了对齐精确度。
运行时间性能：表1统计了不同特征点数目的训练时间（2000个训练图像）。采用了快速特征选择方法使得我们的训练非常有效。训练40000个样本（每个样本20个初始形状）仅仅花费了几分钟。由于大多数计算像素的比较，查表和矢量相加使得测试过程中形状回归非常有效。对于87个特征点在测试阶段仅花费了15毫秒。
参数设置:我们将F 设置为5，β设置为1000。T = 10，K = 500，P =400。
4.实验
实验被分成了两个部分。第一部分是将我们的方法和之前的方法进行比较。第二部分所提出的方法进行验证，并提出了一些有趣的讨论。
我们简要地介绍了在实验室使用的三个人脸数据库。由于不同的特征点数目和图像变化，他们呈现了不同的挑战性。
BioID[11]数据集被广泛使用在一些之前的方法中。它由1521幅在实验室环境下拍摄的正面人脸图像，因此具有较小的挑战性。我们结果表明，在该数据库上具有较好的性能。
LFPW是在 [1]中创建。这些图像可以从网上下载并包含了大量的姿态，光照，表情变化，遮盖物。它的目的是测试在无约束条件下的人脸比对方法。该数据集只是有网络图片url分享的，但有些URL已经无效了。我们从1100张训练图像中下载了812张，从300张测试图像中下载了249张。为了获得足够的训练数据，我们以同样的方式增强训练图像。
LFW87人脸数据库是在[12]中创建的。这些图像主来自于LFW数据库。这是在野生的条件下获得的，被广泛应用于人脸识别。此外，它提高了87个注释的特征点坐标，远远超过BioID和LFPW数据库，因此，算法的性能更多地依赖其形状约束。我们使用了和[12]相同的4,002训练和1,716个测试图像。
5.讨论和结论
我们已经提出了基于显式形状回归的人脸对齐方法。共同回归整个面部形状使对准误差最小，人脸形状约束自动被实现。这个方法得到的结果具有很高的精确度，能够被使用用实时的应用的，例如人脸跟踪。同时，这个显式形状回归框架可以应用于其他问题中，例如姿态估计和医学图像中的解剖结构分割。

0 0