Supervised Descent Method and its Applications to Face Alignment

来源：互联网发布：阿里云系统编辑：程序博客网时间：2024/05/17 09:19

本方法是当前人脸对齐最流行的算法，速度很快，很稳定。下面我将介绍一下这篇文章的整体思路和相关细节。
在介绍之前,先给出几个有用的链接:
1.)
本论文作者主页，形象地介绍了SDM的特点:
http://xiong828.github.io/sdm.html
2. )
superviseddescent C++11版本的实现:
http://patrikhuber.github.io/superviseddescent/
下面开始介绍:
人脸对齐就是要找人脸的特征点。如图
。
我们要找到眼睛、鼻子、嘴巴等特征点。那么如何去做呢？方法有很多。本文讲述了使用SDM去求特征点的方法。假设我们有一个初始的特征点x0，希望通过迭代，逐步求出准确地特征点x∗。这就是大致的思路。

SDM方法（Supervised Descent Method ）

Derivation of SDM

给定一幅含有m个像素的图像d∈Rm×1,d(x)∈Rp×1用来索引图像的p个特征点，x代表p个特征点。h(d(x))∈R128p×1代表SIFT特征向量。在训练阶段，我们假设准确的p个特征点已知，设为x∗。我们另外选取训练集特征点的平均值x0作为初始值。如图：

这样，Face Alignment可以通过在Δx求解如下的最优化问题：

f (x 0 + Δ x) = | | h (d (x 0 + Δ x)) - Φ * | | 22

这里

Φ∗=h(d(x∗))代表手工标记的特征点的SIFT特征。在训练阶段，

Φ∗和

Δx已知。

f (x 0 + Δ x) \approx f (x 0) + J f (x 0) T Δ x + 1 2 Δ x T H (x 0) Δ x

对上面关于

Δx求导,令

f′(x0+Δx)=0，可得

Δ x 1 = - H - 1 J f = - 2 H - 1 J T h (Φ 0 - Φ *)

,这里

Φ0=h(d(x0)).
令

R=−2H−1JTh，ΔΦ0=Φ0−Φ∗,于是R可看作

Δx1到

ΔΦ0的线性回归系数。但是，我们知道在测试阶段，

Φ∗是未知的，但是固定的。因此我们不再使用

Φ∗做训练，而是改用下面的公式：

Δ x 1 Δ x 1 Δ x 1 = = = - 2 H - 1 J T h (Φ 0 - Φ *) - 2 H - 1 J T h Φ 0 + (- 2 H - 1 J T h) (- Φ *) R Φ 0 + b 0

使用训练样本，我们的方法可以学习

R0,b0.
通常这种方法不可能一步迭代完成，需要进行多步，除非f是二次的。为了处理这个非二次的方程，SDM将产生一系列的下降方向

{Rk}和偏差

{bk}.
即

x k = x k - 1 + R k - 1 Φ k - 1 + b k - 1 (1)

,使得对于训练图片集，

xk将收敛到

x∗.

Learning for SDM

假定给定一系列人脸{di}与对应的特征点{xi∗}.对于每张图片，从初始的特征点xi0出发，R0,b0可以通过求解最优化问题获得：

a r g R 0 m i n b 0 \sum d i \int p (x i 0) | | Δ x i - R 0 Φ i 0 - b 0 | | 2 d x i 0

这里

Δxi=xi∗−xi0,Φi0=h(di(xi0)).
我们假定

xi0可以从服从正态分布的人脸检测框对齐采样。于是上面的最优化问题化为：

a r g R 0 m i n b 0 \sum d i \sum x i 0 | | Δ x i - R 0 Φ i 0 - b 0 | | 2

以上方程是个线性的最优化问题，可以直接求解。
当第一步求解完毕后，代入方程式（1）,可以求出

x1,进而又可以计算特征向量

Φik=h(di(xik))和

Δxki∗=xi∗−xik.这样

Rk,bk可以通过一个新的线性回归得到。

a r g R k m i n b k \sum d i \sum x i k | | Δ x k i * - R k Φ i k - b k | | 2

随着k的增大，误差逐渐减小，一般4到5次的迭代就可以达到比较好的效果。

Training for SDM

当我们计算出一系列的{Rk},{bk},我们就可以通过迭代式（1）通过迭代求解特征点。一般初始的特征点可以选取训练时的初始特征点。
后续我们还会给出SDM方法的Matlab代码及相关说明，你就会看到比较清楚的步骤和效果了。

2 0