Convolutional Neural Network-based Place Recognition

来源：互联网发布：淘宝淘金币在哪看编辑：程序博客网时间：2024/06/02 05:31

1 Introduction

自20世纪90年代初推出以来，卷积神经网络（CNN）已经被用于诸如手写字体识别和人脸检测等各种任务中，并取得出色的表现。最近，监督的深度卷积神经网络已经显示出在更具挑战性的分类任务上提供高水平的性[Krizhevsky，et al 2012]。这些令人印象深刻的结果背后的关键支撑因素是他们使用大量标签数据学习数千万个参数的能力。一旦以这种方式进行了训练，CNN已被证明，能够学习辨别性和人类可解释的特征表示[Zeiler and Fergus，2013]。最令人印象深刻的是，这些方法能够在模型未明确训练的任务上产生最先进的表现[Donahue等人，2013]，包括在Caltech-101数据集上的对象识别[Fei-Fei等，2007]，Caltech-USCD鸟类数据集上的子类识别[Welinder等，2010]，SUN-397数据集上[的场景识别Xiao等，2010]和PASCAL VOC数据集的对象检测[Girshick等，2013]。这个在新的任务和数据集上很好的泛化表现，表明CNN可以提供适用于所有任务的通用的视觉特征学习框架。在这些积极成果的鼓舞下，本文开发了一个基于pre-trained的CNN的特征的场景识别框架，如图1所示。

场景识别可以被认为是图像检索任务，其包括确定当前场景和先前访问的位置之间的匹配。最先进的视觉SLAM算法，如FAB-MAP [Cummins and Newman, 2008]通过将图像转换成基于SIFT或SURF等局部特征的bag-of-words表示[Angeli，et al 2008]，将当前场景的外观与过去的场景相匹配。然而，最近的证据[Krizhevsky等人，2012]表明，在分类任务中，从在非常大的数据集上训练的CNN提取的特征显着优于SIFT特征。 [Donahue，et al 2013]表明，在ImageNet数据集上训练的CNN模型的mid-level特征，在一些领域适应研究中，可以比bag-of-word方法更有效地消除数据集的偏差。

在本文中，我们研究是否深度学习在其他识别任务中的优势可以继续进行场景识别。我们提出了一个基于深度学习的场景识别算法，比较在ImageNet[Deng等人，2009]上训练的CNN的特征层响应，以及过滤后续场景识别假设的方法。我们进行两个实验，一个在70公里的基准场景识别数据集上，一个在不同视角的数据集上，提供与两个现有最先进的场景识别算法的定量比较和分析网络内不同层的效用for viewpoint invariance。
本文安排如下。第2节概述了基于特征的场景识别技术和卷积神经网络。在第3节中，我们描述了基于深度学习的场景识别系统的组成部分。实验在第4节中描述，实验结果见第5节。最后，我们在第6节中总结本文，并讨论正在进行的和未来的工作。

2 Related Work

在本节中，我们简要回顾了用于场景识别的基于特征的表示，使用卷积神经网络进行各种视觉分类任务。

2.1 Vision Representation for Place Recognition

视觉传感器由于其低成本，低功耗，占地面积小，丰富的信息内容而日益成为场景识别的主要传感器模式。已经对如何最好地表示和匹配场景图像进行了广泛的研究。
一些作者已经描述了应用全局特征技术处理传入传感器信息的方法。在[Murillo和Kosecka。，2009]中，作者提出了一个使用全景图像进行城市环境的基于特征的地图识别系统。图像灰度值或纹理的直方图也是现场识别系统中广泛使用的特征[Ulrich和Nourbakhsh，2000，Blaer和Allen，2002]由于其紧凑的表示旋转不变性。然而，从整个图像计算全局特征，使其不适用于效果，例如部分闭塞，照明变化或透视变换[Deselaers，et al。，2008]。局部特征对这些外部因素的敏感性较低，并被广泛应用于基于外观的闭环检测，SIFT [Lowe，1999]和SURF [Herbert Bay等人，2008]是两个广泛的例子。最先进的SLAM系统，如FABMAP [康明斯和纽曼，2008]进一步表示
使用本地特征集的外观数据，将图像转换为“袋子”，这使得能够有效地检索。还提出了其他无特征的表示。 SeqSLAM [Milford和Wyeth，2012]直接使用像素值来匹配图像序列，并通过极端感知变化执行位置识别。然而，在其他识别任务中，手工制作的功能被学习的功能超越，提示是否自动学习更好的功能的问题，正在迅速变得明显。

阅读全文

0 0