FaceBoxes —— CPU上实时的人脸检测

来源:互联网 发布:支持网络连接的电视 编辑:程序博客网 时间:2024/05/22 05:30

一篇速度还可以的多尺度人脸检测文章。

方法和SSD大同小异。

文章链接: 《FaceBoxes: A CPU Real-time Face Detector with High Accuracy》

1. 方法介绍

这里写图片描述

如上图,输入单张图片,在三个网络分支检测人脸。

2. 要点介绍

(1)Rapidly Digested Convolutional Layers(RDCL)

在网络前期,使用RDCL快速的缩小feature map的大小。 主要设计原则如下:

  • (1) Conv1, Pool1, Conv2 和 Pool2 的stride分别是4, 2, 2 和 2。这样整个RDCL的stride就是32,可以很快把feature map的尺寸变小。
  • (2)卷积(或pooling)核太大速度就慢,太小覆盖信息又不足。文章权衡之后,将Conv1, Pool1, Conv2 和 Pool2 的核大小分别设为7x7,3x3,5x5,3x3
  • (3)使用CReLU来保证输出维度不变的情况下,减少卷积核数量。

(2)Multiple Scale Convolutional Layers(MSCL)

在网络后期,使用MSCL更好地检测不同尺度的人脸。 主要设计原则有:

  • (1) 类似于SSD,在网络的不同层进行检测;
  • (2) 采用Inception模块。由于Inception包含多个不同的卷积分支,因此可以进一步使得感受野多样化。

(3)Anchor densification strategy

SSD和Faster R-CNN此类方法对小目标效果不好,一定程度上是因为小目标所能对应的anchor比较少,导致训练不足。

下图是本文网络三个分支默认anchor的大小,以及每个分支对应的spatial stride。
我们可以据此定义anchor密度为(anchor大小 / stride)。 显然,第一个分支的一些anchor密度不足。这也是为什么小目标检测效果不佳的重要原因。

为了anchor密度均衡,可以对密度不足的anchor以中心进行偏移加倍,如下图所示:

这里写图片描述

3. 实验结果

FDDB上的测试结果:

这里写图片描述

CPU速度测试:(这个CPU硬件性能有点好)