10年后再看Robust Real-Time Face Detection(二) 之特征

来源：互联网发布：mac桌面文件夹打不开编辑：程序博客网时间：2024/05/26 15:58

论文中检测算法采用的算法是基于特征的。如今现在任何一篇计算机视觉的论文基本采用的都是基于特征的了。也就是首先给定一幅图像，我们一般第一步就是根据我们的视觉任务提取特征。现在很难再找到基于像素级的算法的论文了。为了忠实原文，我们还是说说为什么要基于特征而不是基于像素。文章中提到了两种原因，具体如下：

（1）特征承载着特定领域（ad-hoc domain knowledge）的知识信息。也就是说很难通过有限的训练样本训练学习到，或者说我们通过有限的样本，却得到了能够描述推广到其他样本的信息。也就是说更易推广（我的理解）。

（2）基于特征的检测人脸系统比基于像素级的检测人脸的速度更快。

文章中，作者主要采用了三种特征：

（1）两矩形特征（two-rectangle feature）。如下图：

如上图A 和图 B，其中两矩形特征其实有两种。特征的值均为为白色矩形覆盖的所有的像素值之和减去灰色区域的矩形区域覆盖的像素之和。

（2）三矩形特征（three-rectangle feature）。如下图：

如上图C，三矩形特征只有一种情况。该特征值是两边的白色矩形覆盖的区域的各个像素灰度值之和减去中间的灰色矩形区域覆盖的的像素值之和。

（4）四矩形特征（four-rectangle feature）。如下图：

如上图D，四矩形特征也只有一种情况。该特征的特征值就是主对角线上两个白色矩形区域像素值求和，减去负对角线上两个灰色矩形像素值求和。

注意，值得一提的是，如果我们的检测子（detector）为24 x 24的大小的时候，那么矩形特征穷举集合为（the exhaustive set）是相当大的，达到160，000个。也就是说，对于一个24x2大小的窗口，我们得到的特征向量是160,000维的特征向量。更何况我们要扫描这样一整幅图像。我们所以这些特征是过完备的（overcomplete）。然而Haar基是完备的。所以这些特征是Haar Like features, 而不能被称为Haar 特征。

如果直接计算这些矩形特征显然是不现实的。因为矩形特征个数很多，而且所有的像素求和，相减等等，显然会导致时间复杂度太大。显然无法满足实时性的要求。在这里，作者利用积分图的概念，首先一算出图像对应的积分图。一旦有了积分图之后，我们就可以快速的计算出任何一个矩形框区域覆盖的所有的像素的灰度值之和。下面重点介绍一下积分图（Integral Image）。

0 0