(2009_ICCV)An HOG-LBP Human Detector with Partial Occlusion Handling

来源:互联网 发布:如何卸载软件 编辑:程序博客网 时间:2024/05/17 00:57

摘要:通过HOG结合LBP作为特征集,本文提出能够处理部分遮挡的行人检测方法。两种检测器:整个扫描窗口的全局检测器以及局部区域的部分检测器,使用线性SVM进行训练数据学习。对每一个模糊的扫描窗口,通过使用每一块的HOG特征对全局检测器的响应,构建了一个occlusion likelihood map。使用Mean-shift方法分割occlusion likelihood map。大多数负响应的窗口分割部分可以推测为阻塞区域(the portion segmented portion of the window with a majority of negative response is inferred as an occluded region)。如果部分阻塞表明了在某个扫描窗口上的可能性高,则部分检测器用于没有遮挡的区域实现了当前扫描窗口的分类。(if partial occlusion is indicated with high likelihood in a certain scanning window,part detector are applied on the unoccluded regions to achieve the final classification on the current scanning window.)利用增广的HOG-LBP特征和全局-局部遮挡处理方法,在INRIA数据集上可以实现91.3%的检测率,FPPW = 10-6, 94.7%的检测率,FPPW = 10-5, 97.9%的检测率,FPPW = 10-4。据了解,这是在INRIA数据集上最好的人体检测效果。全局-部分遮挡处理方法在由INRIAPascal数据集构成的综合遮挡数据进一步得到了验证。

1、 引言

人体检测在视频监控,基于内容的图像和视频检索,视频标识和辅助生活领域有广阔的应用前景。然而,基于人体多变的外表以及多范围的姿势变化,在图像/视频中的人体检测是一项具有挑战性的任务。

2005 年到 2008 Pascal挑战赛的结果以及最近的研究来看,在对象检测领域,特别是人体检测领域来说,基于滑动窗口分类器的检测方法相比其他方法,具有很大的优势,也成为当前人体检测技术研究的热点。滑动窗口检测方法是使用一个滑动窗口,在图像的不同尺度上,从图像的左上角开始,逐列或者逐行地进行扫描,直到图像右下角的像素。如下所示

通过这种扫描方式,来收集像边缘、片段、小波系数、颜色等特征,并把收集好的特征输入训练好的分类器进行分类判断。使用标记的训练数据进行离线训练。分类器将会对滑动窗口进行分类,绑定一个人,作为正样本,其他的为负样本。目前, SVM和提升的决策树的变种因其良好的性能和效率,已经成为两种主流的的分类器。

 与其他的检测器相比,还是偏好它的效果,比如基于部分的检测器,滑动窗口方法处理部分遮挡效果很差。因为在扫描窗口中的特征选择比较密集,如果扫描窗口的一部分被遮挡了,而遮挡的地方相对应的特征是固有的噪声,那么将会使整个窗口的分类结果恶化。另一方面,基于部分的检测器早某种程度上可以缓解遮挡的问题,依靠未被遮挡的区域决定人的位置。

为了将基于部分的检测器处理遮挡的优势整合到滑动窗口检测器,当部分遮挡发生时,我们需要在滑动窗口中找到遮挡的区域。因为,我们要回答两个重要的问题:1)如何判定在一个扫描窗口中是否发生了部分遮挡;(2)如果在滑动窗口中存在部分遮挡,如何消除它的位置?

当部分遮挡发生时,为了推断出遮挡的区域,我们提出一个在每个滑动窗口上全局分类分数的分段“局部分布式”得分。

通过研究线性SVMINRIA数据集上的分类得分,我们发现一个有趣的现象:若一个行人部分遮挡,则在那一块区域密集提取的HOG特征块与线性SVM分类器的负内积(negative inner products???)一致。

这个有趣的现象使得我们研究背后的原因。每个扫描窗口的HOG特征是由从7 x 15 = 105 块(16 X 16像素)提取的105个直方图组成,注意到标量积的线性,每个扫描窗口的线性SVM得分,实际上是HOG特征(将105个方向直方图连接起来)和一个向量W之间的内积,w是所有学习的支持向量的加权总和。

因为,线性SVM得分是HOG块和相应的wii=1,…,105之间的105个线性积的总和。对一个模糊的扫描窗口,我们构建了一个分辨率为7X15的二值遮挡可能的图像。在可能遮挡的图像中每个像素的强度是相应块响应的标志。

对于每一个模糊分类得分的滑动窗口,可以将可能发生遮挡的区域分割出来,通过在二值可能遮挡的图像上使用运动图像分割算法。Mean-shift算法被应用于每个窗口的二值图像的分割。在mean-shift框架中每个块的实值响应用作每个像素的加权亮度值。一个负响应的分割区域被推断为扫描窗口的遮挡区域。

一旦遮挡的区域被检测出来,我们可以最小化遮挡的影响,通过使用基于局部的检测器在未被遮挡的区域。

本文的三个贡献:1)通过滑动窗口分类上遮挡的结果,提出了一个算法整合了基于局部检测处理遮挡的优势和滑动窗口;(2)增广特征,HOG-LBP,将HOG结合了细胞结构的LBP,作为特征集,基于HOG-LBP的人体检测器可以取得更好的效果;(3)简化三线性内插过程为2D的卷积,这样可以整合到积分直方图方法,有效地提高了滑动窗口检测器的效率。

   

1、 相关的工作

这段介绍了一些前人的工作,从一些参考的文献中。Mu et al.[20] state that传统的LBP算子in[2]不适合解决人体检测的困难。我们提出一个不同的细胞结构的LBP。扫描窗口被分为大小为16X16的无覆盖的细胞。从细胞提取出来的LBPs串连起来成为细胞结构的LBP,类似于[8 Dala]的细胞-块结构。

2、 方法

我们的遮挡处理想法是使用HOG-LBP特征训练的基于全局和部分的检测器。

     

3.1.使用整合的HOG-LBP检测人体

HOGSIFT在目标检测与识别方面更有优势,HOG已被广泛接受为一种捕捉边缘或者局部形状信息最好的特征之一。LBP算子是一个很好的纹理描述符,已经广泛使用各种应用,在人脸识别方面缺取得很好的效果。LBP有高度的识别能力,关键优势,就是它的单调灰度级改变的不变性,和计算的效率,使得它适合图像分析任务的需求,比如人体检测。

我们提出了一个增广的特征向量,结合了HOG特征和细胞结构的LBP特征。当背景覆盖着凌乱的噪声边缘时,HOG处理效果很差,而LBP可以处理。它可以过滤出噪声,使用均匀模式的概念。我们相信如果我们结合了边缘/局部形状信息还有纹理信息,能够很好的捕捉到人的外表。至于LBP,我们直接在细胞中建立了模型直方图,我们使用来指示LBP特征,圆心为r,样本点为n0-1转换的数目不超过u,该模式称为均匀模式。比如模式0010010是一个非均匀的模式,是一个均匀的模式,因为允许了40-1的转换。在我们的方法中,不同的均匀模式计算到不同的bins中,所有的非均匀模式投票到一个bin中。

距离来测量到中心像素的距离,也就是

 

 

    在我们的实现中,使用了欧式距离进行距离的测量实现了较好的效果。为了从一个矩形点阵中提取圆形局部二值模式(圆形LBP),需要使用双线性插值。该效果与细胞结构的LBP特征相比。

 

3.2使用卷积的三线性插值构造的积分直方图(Integral histogram construction with  convoluted Trilinear interpolation

      滑动窗口分类太浪费资源以及计算量太大。积分图像直方图。三线性插值和高斯加权是在HOG的构建中两个重要的子程序。方向和幅度的原始分布原理会引起量化噪声的影响,同时在方向bin和空间维度,这样的量化噪声能使得最终的特征不够稳定。为了避免这个影响,我们应该每个像素的梯度效应分布到它的邻域。在试验中,我们发现,HOG-LBP检测器在没有三线性插值的情况下,检测率降低了3%。我们的HOG-LBP检测器不受高斯加权过程的影响。

在文献[34]中,三线性插值不适合于积分图像方法。然而没有三线性插值的积分HOG特征计算速度很快,不如原来的HOG,如在文献[34]中提到的。

为了利用积分图的优势,而不损害效果,我们提出一个方法,称为:卷积的三线性插值(convoluted Trilinear interpolation)(CTI),来实现三线性插值。对于HOG,每个像素的梯度方向被离散化为9bins,所以在每个像素,梯度是一个2D向量,有着实值的大小,和离散化的方向(9个可能的方向,在[0,]中平均分布。在HOG积分图像的构建中,若我们将每个像素的特征值看做是一个2D向量,我们就不能在像素之间做三线性插值,为了克服这个困难,我们将每个像素的特征值看做是9D的向量,每一维的值是相应的方向的幅度插值。在构建积分图像之前,可以先完成三线性插值。

             以下部分省略,太难编辑了。。。。。  可怜
原创粉丝点击