Joint Deep Learning for Pedestrian Detection(2014)

来源:互联网 发布:淘宝优惠券哪里领取 编辑:程序博客网 时间:2024/06/03 14:59

1. Introduction

       行人检测是汽车自动驾驶安全,机器人和智能视频监控的关键技术。它吸引了大量的研究兴趣[2,5,12,47,8]。这个任务的主要挑战是 由行人的服装,光照,背景,关节和遮挡等类内变化引起的

       为了解决这些挑战,一组相互依赖的组件是很重要的。首先,特征应该捕捉行人的最具判别性的信息。众所周知的特征如Haar-like特征[49],SIFT [29]和HOG [5]被设计为对于类内变化是鲁棒的,同时对类间变化保持敏感。第二,形变模型应该处理人体部件的关节如躯干,头部和腿部。 [17]state-of-the-art的可形变部件模型允许human parts to articulate with constraint。第三,遮挡处理方法[13,51,19]试图确定遮挡的区域,并在确定窗口中是否存在行人时避免使用它们。最后,分类器决定候选窗口是否被检测为包围一个行人。 SVM [5],boosted classifiers[11],随机森林[9]及其变体常常被使用。

       虽然这些组件是相互依赖的,但它们的相互作用尚未得到很好的探索。目前,它们首先被单独或依次的学习或设计,然后把它们放在一起,形成流程。这些组件之间的交互通常通过手动参数配置来实现。考虑以下三个例子。 (1)给定在[5]中使用的线性SVM分类器,HOG特征单独设计,参数通过手动调整选定,然后,当人们设计新的分类器时,HOG特征变得固定[31]。 (2)在[17]中调整了几个HOG特征参数并固定,学习不同的部件模型[17,58]。 (3)通过固定HOG特征和可变形模型,使用部分检测分数作为输入,在[34,36]中学习遮挡处理模型。

         如图1所示,本文的动机是在学习这些关键组件时建立自动交互。我们希望获得联合学习的组件,如具有团队精神的成员,可以通过紧密的互动创造协同效应,并产生大于单独学习的组件的性能。例如,学习良好的特征有助于定位部件,同时,良好的部件定位有助于对于不同的部件学习更多判别性特征。本文将这些关键组件的学习转化为统一的深度学习问题。深层模型特别适合于此任务,因为它可以将这些组件组织到不同的层中,并通过反向传播共同优化它们。
         本文作了以下三个主要贡献。 

         1.用于联合学习特征提取的统一深度模型,部件形变模型,遮挡模型和分类。使用深层模型,这些组件在学习过程中相互交互,这允许每个组件在与其他部分合作时 最大化其能力。
         2.通过将形变层纳入卷积神经网络(CNN),我们丰富了深度模型的操作[26]。通过形变层,各种形变处理方法可以应用于我们的深层模型。
        3.通过与形变和遮挡处理模型的交互,从像素学习特征。这种交互有助于学习更多的判别性特征。


2.Related Work

       已经证明,深度模型在处理复杂任务时可能比浅层模型更有能力[3]。他们在计算机视觉方面取得了惊人进展[20,21,40,23,25,33,24,56,30,46,16,38]。用于行人检测的深度模型集中于特征学习[44,33],上下文信息学习[57]和遮挡处理[34]。
        许多特征被用于行人检测。Haar-like特征[49],HOG [5]和dense SIFT [48]旨在捕捉行人的整体形状。一阶色彩特征如颜色直方图[11],二阶色彩特征如颜色自相似性(CSS)[50]和共现特征[43]也用于行人检测。 [51]中使用了像LBP这样的纹理特征。其他类型的特征包括协方差描述符[47],深度[15],分割结果[13],3D几何[22]及其组合[27,51,11,15,23,33]。上述所有特征都是手动设计的。最近,研究人员已经意识到从训练数据学习特征的好处[1,33,44]。与HOG类似,它们使用局部最大池化或平均池化来对小的局部不对准是鲁棒的。然而,这些方法没有学习身体部位的多种变形特性。 [7]中的方法顺序的学习特征和基于部件的模型,而不是联合的。

        由于行人具有非刚性形变,处理形变的能力能够提高检测性能。 [17,58,37,35]中使用可形变部件的模型来处理部件的平移运动。为了处理更复杂的关节,部件的尺寸变化和旋转被建模在[18]中,部件外观和关节类型的混合在[4,55,6]中建模。在这些方法中,特征是手动设计的。

        为了处理遮挡,已经提出了许多方法来估计部件的可见度[13,51,54,53,45,27]。其中一些使用块或部件的检测分数[51,34,13,54]作为可见度估计的输入。一些方法使用其他线索,如分割结果[27,13]和深度[13]。然而,所有这些方法分别从特征​​提取和部分模型中学习遮挡建模。

        广泛使用的分类方法包括各种boosting分类器[9,11,53],线性SVM [5],histogram intersection kernel SVM [31],latent SVM [17],multiple kernel SVM [48],structural SVM [58]和概率模型[2,32]。在这些方法中,分类器适用于训练数据,但是特征是手动设计的。如果在特征提取中丢失了有用的信息,那么信息在分类过程中无法恢复。理想情况下,分类器应指导特征学习。

        总之,以前的工作单独或顺序的处理这些组件。本文全面考察了这些组件,是行人检测模型迈向联合学习组件的重要一步。


阅读全文
0 0
原创粉丝点击