（2009_ICCV）An HOG-LBP Human Detector with Partial Occlusion Handling

来源：互联网发布：如何卸载软件编辑：程序博客网时间：2024/05/17 00:57

摘要:通过HOG结合LBP作为特征集，本文提出能够处理部分遮挡的行人检测方法。两种检测器：整个扫描窗口的全局检测器以及局部区域的部分检测器，使用线性SVM进行训练数据学习。对每一个模糊的扫描窗口，通过使用每一块的HOG特征对全局检测器的响应，构建了一个occlusion likelihood map。使用Mean-shift方法分割occlusion likelihood map。大多数负响应的窗口分割部分可以推测为阻塞区域（the portion segmented portion of the window with a majority of negative response is inferred as an occluded region）。如果部分阻塞表明了在某个扫描窗口上的可能性高，则部分检测器用于没有遮挡的区域实现了当前扫描窗口的分类。（if partial occlusion is indicated with high likelihood in a certain scanning window,part detector are applied on the unoccluded regions to achieve the final classification on the current scanning window.）利用增广的HOG-LBP特征和全局-局部遮挡处理方法，在INRIA数据集上可以实现91.3%的检测率，FPPW = 10^-6^，, 94.7%的检测率，FPPW = 10^-5^，, 97.9%的检测率，FPPW = 10^-4^，。据了解，这是在INRIA数据集上最好的人体检测效果。全局-部分遮挡处理方法在由INRIA和Pascal数据集构成的综合遮挡数据进一步得到了验证。

1、引言

人体检测在视频监控，基于内容的图像和视频检索，视频标识和辅助生活领域有广阔的应用前景。然而，基于人体多变的外表以及多范围的姿势变化，在图像/视频中的人体检测是一项具有挑战性的任务。

从 2005 年到 2008年 Pascal挑战赛的结果以及最近的研究来看，在对象检测领域，特别是人体检测领域来说，基于滑动窗口分类器的检测方法相比其他方法，具有很大的优势，也成为当前人体检测技术研究的热点。滑动窗口检测方法是使用一个滑动窗口，在图像的不同尺度上，从图像的左上角开始，逐列或者逐行地进行扫描，直到图像右下角的像素。如下所示

通过这种扫描方式，来收集像边缘、片段、小波系数、颜色等特征，并把收集好的特征输入训练好的分类器进行分类判断。使用标记的训练数据进行离线训练。分类器将会对滑动窗口进行分类，绑定一个人，作为正样本，其他的为负样本。目前， SVM和提升的决策树的变种因其良好的性能和效率，已经成为两种主流的的分类器。

与其他的检测器相比，还是偏好它的效果，比如基于部分的检测器，滑动窗口方法处理部分遮挡效果很差。因为在扫描窗口中的特征选择比较密集，如果扫描窗口的一部分被遮挡了，而遮挡的地方相对应的特征是固有的噪声，那么将会使整个窗口的分类结果恶化。另一方面，基于部分的检测器早某种程度上可以缓解遮挡的问题，依靠未被遮挡的区域决定人的位置。

为了将基于部分的检测器处理遮挡的优势整合到滑动窗口检测器，当部分遮挡发生时，我们需要在滑动窗口中找到遮挡的区域。因为，我们要回答两个重要的问题:（1）如何判定在一个扫描窗口中是否发生了部分遮挡；（2）如果在滑动窗口中存在部分遮挡，如何消除它的位置？

当部分遮挡发生时，为了推断出遮挡的区域，我们提出一个在每个滑动窗口上全局分类分数的分段“局部分布式”得分。

通过研究线性SVM在INRIA数据集上的分类得分，我们发现一个有趣的现象:若一个行人部分遮挡，则在那一块区域密集提取的HOG特征块与线性SVM分类器的负内积(negative inner products???)一致。

这个有趣的现象使得我们研究背后的原因。每个扫描窗口的HOG特征是由从7 x 15 = 105 块（16 X 16像素）提取的105个直方图组成，注意到标量积的线性，每个扫描窗口的线性SVM得分，实际上是HOG特征（将105个方向直方图连接起来）和一个向量W之间的内积，w是所有学习的支持向量的加权总和。

因为，线性SVM得分是HOG块和相应的wi，i=1,…,105之间的105个线性积的总和。对一个模糊的扫描窗口，我们构建了一个分辨率为7X15的二值遮挡可能的图像。在可能遮挡的图像中每个像素的强度是相应块响应的标志。

对于每一个模糊分类得分的滑动窗口，可以将可能发生遮挡的区域分割出来，通过在二值可能遮挡的图像上使用运动图像分割算法。Mean-shift算法被应用于每个窗口的二值图像的分割。在mean-shift框架中每个块的实值响应用作每个像素的加权亮度值。一个负响应的分割区域被推断为扫描窗口的遮挡区域。

一旦遮挡的区域被检测出来，我们可以最小化遮挡的影响，通过使用基于局部的检测器在未被遮挡的区域。

本文的三个贡献:（1）通过滑动窗口分类上遮挡的结果，提出了一个算法整合了基于局部检测处理遮挡的优势和滑动窗口；（2）增广特征，HOG-LBP，将HOG结合了细胞结构的LBP，作为特征集，基于HOG-LBP的人体检测器可以取得更好的效果；（3）简化三线性内插过程为2D的卷积，这样可以整合到积分直方图方法，有效地提高了滑动窗口检测器的效率。

1、相关的工作

这段介绍了一些前人的工作，从一些参考的文献中。Mu et al.[20] state that传统的LBP算子in[2]不适合解决人体检测的困难。我们提出一个不同的细胞结构的LBP。扫描窗口被分为大小为16X16的无覆盖的细胞。从细胞提取出来的LBPs串连起来成为细胞结构的LBP，类似于[8 Dala]的细胞-块结构。

2、方法

我们的遮挡处理想法是使用HOG-LBP特征训练的基于全局和部分的检测器。

3.1.使用整合的HOG-LBP检测人体

HOG比SIFT在目标检测与识别方面更有优势，HOG已被广泛接受为一种捕捉边缘或者局部形状信息最好的特征之一。LBP算子是一个很好的纹理描述符，已经广泛使用各种应用，在人脸识别方面缺取得很好的效果。LBP有高度的识别能力，关键优势，就是它的单调灰度级改变的不变性，和计算的效率，使得它适合图像分析任务的需求，比如人体检测。

我们提出了一个增广的特征向量，结合了HOG特征和细胞结构的LBP特征。当背景覆盖着凌乱的噪声边缘时，HOG处理效果很差，而LBP可以处理。它可以过滤出噪声，使用均匀模式的概念。我们相信如果我们结合了边缘/局部形状信息还有纹理信息，能够很好的捕捉到人的外表。至于LBP，我们直接在细胞中建立了模型直方图，我们使用来指示LBP特征，圆心为r，样本点为n，0-1转换的数目不超过u，该模式称为均匀模式。比如模式0010010是一个非均匀的模式,是一个均匀的模式，因为允许了4个0-1的转换。在我们的方法中，不同的均匀模式计算到不同的bins中，所有的非均匀模式投票到一个bin中。

距离来测量到中心像素的距离，也就是，

在我们的实现中，使用了欧式距离进行距离的测量实现了较好的效果。为了从一个矩形点阵中提取圆形局部二值模式（圆形LBP），需要使用双线性插值。该效果与细胞结构的LBP特征相比。

3.2使用卷积的三线性插值构造的积分直方图（Integral histogram construction with convoluted Trilinear interpolation）

滑动窗口分类太浪费资源以及计算量太大。积分图像直方图。三线性插值和高斯加权是在HOG的构建中两个重要的子程序。方向和幅度的原始分布原理会引起量化噪声的影响，同时在方向bin和空间维度，这样的量化噪声能使得最终的特征不够稳定。为了避免这个影响，我们应该每个像素的梯度效应分布到它的邻域。在试验中，我们发现，HOG-LBP检测器在没有三线性插值的情况下，检测率降低了3%。我们的HOG-LBP检测器不受高斯加权过程的影响。

在文献[34]中，三线性插值不适合于积分图像方法。然而没有三线性插值的积分HOG特征计算速度很快,不如原来的HOG,如在文献[34]中提到的。

为了利用积分图的优势，而不损害效果，我们提出一个方法，称为:卷积的三线性插值(convoluted Trilinear interpolation)(CTI),来实现三线性插值。对于HOG，每个像素的梯度方向被离散化为9bins，所以在每个像素，梯度是一个2D向量，有着实值的大小，和离散化的方向（9个可能的方向，在[0,]中平均分布。在HOG积分图像的构建中，若我们将每个像素的特征值看做是一个2D向量，我们就不能在像素之间做三线性插值，为了克服这个困难，我们将每个像素的特征值看做是9D的向量，每一维的值是相应的方向的幅度插值。在构建积分图像之前，可以先完成三线性插值。

以下部分省略，太难编辑了。。。。。