Weakly Supervised Object Localization with Multi-fold Multiple Instance Learning

来源:互联网 发布:asp源码修改工具 编辑:程序博客网 时间:2024/05/16 11:22

Weakly Supervised Object Localization with Multi-fold Multiple Instance Learning

基于多层多实例学习的弱监督物体定位

摘要——在计算及视觉领域,物体的分类定位是一个具有挑战性的问题。标准的监督训练需要物体实例的bounding box标注。弱监督学习避免了这一耗时的标注过程。在这样的情况下,监督信息被限制在了二态标注中能够表明图片中物体实例是存在还是缺失。我们提出了一个多实例的学习方法,它能够迭代的训练检测器并且推断出正图片样本中物体的位置信息。我们主要的贡献是一个多层多实例的学习策略,它能够阻止训练过早地锁定在错误的物体位置。这个过程在高维表示中是特别重要的,例如fisher向量和卷积神经网络特征。我们也提出了一个窗口强化方法,这个方法能够提高定位的精度通过包含物体的先验信息。我们提出了一个具体的实验评估结果利用PASCAL VOL 2007数据集,这能够证明我们方法的有效性。
关键字弱监督学习,物体检测

  1. 引言
    物体分类定位在过去十年间取得了很大得进步,PASCAL VOC挑战赛见证了这个过程。然而,训练最新的物体检测器需要物体实例的bounding box标注,获得这样的标注需要花费很大的代价。弱监督学习方法(WSL)指的是依靠具有不完全真实信息的训练数据来训练识别模型。对于物体检测,能够表明图像中分类实例存在性的WSJ最近已经大量的研究作为去除bounding box标注的一种方法,见【4,8,12,15,17,35,37,38,40,43,45,46,47,53】。这样的方法能够潜在性的消除大量的网上的标注图片作为数据源来训练物体检测器。我们在本文第二节列出了最相关的工作。
    其他的WSL例子包括训练面部识别模型或者加上图片副标题【6】和内容信息【19】。但是另一个例子是从图片水平分类标注训练语义分割模型【51】。大多数WSL方法是基于隐藏的変量模型来对缺失的信息负责。多实例学习(MIL)解决了弱监督学习在一系列例子中存在至少一个正实例的情况。更先进的结论和学习方法被用在最新的更复杂的变量结构中,例如【17,40,51】。除了弱监督训练,全监督和肉监督混合【9】,主动监督【52】以及半监督【40】训练以及无监督物体发现【11】方法已经被探索用来降低物体检测训练中需要的标签训练数据。在主动学习中,用到了bounding box标注,但是只需要图像中最有效的图像标注。而半监督学习促使未标注图像通过自动检测物体而发生改变,使用这些让物体出现变化模型变得更好。
    在这篇文章中,我们利用WSL从图像层面训练物体检测器。我们跟随一个MIL方法插入训练的检测器,使用正训练图像的物体实例。根据最新的全监督检测器【13,22,50】,我们利用Fisher向量(FVs)和卷积神经网络(CNN)特征【29】提出检测窗【39】。正如本文第三节提到的,当用在MIL框架中时,高维的窗口信息使得MIL迅速收敛到低劣的局部最佳状态在初始化之后。我们的主要贡献是MIL的一个多层训练策略,能够避免急速收敛到局部最优解。我们方法的第二个新颖之处在于使用了对比的背景描述器,即物体窗口描述器和剩余图像部分描述器的不同之处。这个 线性分类器的描述器评分能够用前景和背景得分的不同来表示。在这种情况下,我们指引检测器学习前景和背景外观的不同。最后,基于物体先验知识【17】的启发,我们提出一个窗口强化方法,能够提高肉监督定位的精度通过包含独立分类的对象尺寸。
    我们利用VOC 2007数据集进行了详细的评估在本文的第四节。实验结果展示出我们的多层MIL训练提高了FV和CNN特征的表现。我们同样展示出WSL的表现能够通过结合两种不同的检测器和应用我们的窗口强化方法得到提升。评估结果展示了我们的系统包含了再VOL 2007数据及上最新的结果。我们同样提出了VOC 2010上的结果,还没有在先前的工作中用过的。
    一部分的材料在【14】中被提出。此外,一个关于最近工作更加详细的展示和谈论,目前的论文通过几个方式对其进行了扩展。我们通过引进窗口强化模型对WSL方法进行了强化。此外,还利用CNN特征进行了额外的实验,以及她和FV特征的结合。最后,我们展示了用混合监督设置进行训练时的实验,一部分的图像是弱监督,剩下的用全部的bounding box 进行了标注。

  2. 相关工作
    大量相关的研究将物体检测方面的弱监督学习看做是一个多实例(MIT)学习问题。每一张图片都被认为是一袋尝试性窗口的例子。假定正图像至少包含一个正物体实例窗口,与此同时负图像只包含负窗口。物体检测器然后被用来改变检测器的训练,同事使用检测器来选择正图像中最有可能的物体实例。
    做很多的多实例(MIL)问题中,例如弱监督人脸识别【6,9】,每袋例子的数量最多为几十个。作为对比,由于可能的物体bounding box 的数量是二次函数对应着图像像素的数量,每袋都含有大量的例子。 候选窗口生成方法可以使多实例(MIL)方法接近物体定位的弱监督方法,同时使MIL有可能使用强大的计算能力昂贵的物体模型。
    尽管候选窗口生成方法能够有效减少每张图片的寻找空间,窗口的选择需要经过大量的图片是一个固有的问题,一个迭代的WSL方法通常只能找到一个局部最优窗口根据初始化的窗口。因此,在本节中,我们首先回顾论文中的提到的初始化方法,然后总结迭代WSL方法。
    2.1 初始化方法
    大量的不同的初始化MIL检测训练方法被提出来。一个简单的策略,在【28,35,38】中提到的通过选取大到覆盖整张正图片的窗口来初始化。这个策略利用MIL问题用于物体检测的结构。就是:尽管大窗口可能会包含数量巨大的背景特征,他们很有可能也包含了正物体实例。
    另一个策略就是利用一个独立类的显著点方案目的是要预测给定的图像区域是否属于一个物体。例如,Deselaers等人【17】使用物体方法【2】生成候选窗口,给每个窗口赋值利用一个在小无标记的类上训练的显著性模型。Siva等人【44】却估计除了一个非监督的补丁级别显著点图对于每个给定的图像通过测量每个补丁跟其他补丁的相似性在检索一系列相似图像的时候。在每一张图像中,一个原始的窗口通过从一致显著图中被发现。
    可供选择的,一个特定的类初始化方法也可被使用。例如,Chum and Zisserman【12】选择视觉词,能够显著地出现在正训练图像中并且初始化WSL通过找到每张图中的视觉词的bounding box。
    2.2 迭代学习方法
    一旦给出了初始化窗口,我们通常会利用一个迭代学习方法为了提高训练图像的原始位置。一个最早的利用WSL做物体检测训练的例子由Crandall and Huttenlocher【15】提出。在他们的工作中,物体和部分定位被定义成一个统计模型中最新的变量。这些变量能够自动推断和利用在训练过程中使用EM算法。他们的主要贡献是在一个不使用手工标注的物体检测器,而不是利用图像标签进行训练。他们的方法在数据及上被评估,包含未聚类的图像背景和物体位置上的少量的出入,意味着这不是真实的WSL物体检测测试集。
    几个WSL方法目的是通过选择一系列的候选者窗口来定位物体基于成对的相似性。

  3. 弱监督物体定位
    下面,我们在3.2节展示了我们的多层MIL方法,在3.3节展示窗口强化方法,但是我们要首先简要的描述我们的FV和VNN特征提取器。
    3.1 特征和检测窗口表示
    我们依据FV和CNN特征在实验过程中。在这两种情况下,我们使用Uijlings等人【49】的选择性搜索方法。它能够对每个图像生成一系列有限制的1500候选窗口。这加速了检测器的训练和评估,当过滤掉最不可能的物体位置。
    FV特征的提取是基于我们之前的对全监督检测器的工作。特别的,我们收集局部SIFT特征加入到FV特征提取器,我们可以应用l2 以及能量正则化【39】。我们将FV检测器用到全检测窗口上,窗口中的一个4*4的细胞网能够计算出16个FV值,这一想法起源于Lazebnik等人提出的空间金字塔表示【32】。利用主成分分析法(PCA)将SIFT特征规划成64维,还有64个成分的高斯混合模型,这生产出140,352维的描述器。我们减少了内存占用空间,且加速了训练迭代过程,通过利用PQ和Blosc特征【3.26】。
    跟Russakovsky等人【38】差不多,我们添加了全局信息从那些未被窗口覆盖的图像上。全图像描述器或者图像分类分数普遍应用于全监督物体检测【13,48】。但是对于WSL而言,使用物体窗口的补足部分而不是整张图片来确保内容描述器仍然取决于窗口的位置。这就组织了训练检测模型的退化,由于否则内容描述器能够被完美的用于训练图像分割而不用管物体的位置信息。
    为了增强内容描述器的有效性,我们提出了一个对比的版本,被定义为背景和前景的差异。由于我们使用线性分类器,这个描述器对窗口评分的贡献,是通过omigaTxbxf 体现出的。能够被分解成前景和背景得分之和。由于前景和背景描述器有相同的权重向量,只是符号不同,我们强制性前景图像特征得分为正,背景图像为负,或者相反在对比描述器中。这能够组织检测器给前景和背景相同的特征进行评分。为了确保我们有足够的SIFT描述器来描述背景FV,我们过滤检测窗口来代表一个至少4%图像边界的距离。比如说,一个100*100像素的图像,窗口距离图像边界的距离不得少于4像素。这个过滤器能够去除接近一半的窗口。我们初始化MIL训练使用覆盖图像的窗口,知道4%的边界,这样所有的实例都能够被原始窗口捕捉到。
    我们通过Krizhevsky等人【29】提出的CNN构架来获取CNN特征。我们利用CNN模型的前七层,这七层包含5个卷积网络以及2个全连接层。CNN模型是在ImageNet上经过预训练的使用caffe工具。根据Girshick【22】,我们裁剪并且调整减去均值的区域,就是那些跟候选窗口大小224*224一致的区域,这是CNN模型所要求的的。最后,我们应用l2 对4096层结果特征正则化。
    CNN特征的一个重要优点是,一些跟高维图像结构一致的特征维,例如特定的动物脸和身体【22】,能够简化WSL问题。我们的实验结果展示了CNN特征比FV特征的结果要好,但是他们是互补的,只有当将这两者结合在一起才能获得最好的结果。
    3.2 弱监督物体检测训练

  4. 结论

  5. 参考文献
1 0
原创粉丝点击