Transferring Deep Convolutional Neural Networks for the Scene Classification of High-Resolution Remo

来源：互联网发布：matlab求矩阵乘法编辑：程序博客网时间：2024/06/09 17:57

Transferring Deep Convolutional Neural Networks for the Scene Classification of High-Resolution Remote Sensing Imagery

摘要

学习有效的图像表示是遥感图像场景分类任务的核心。用于解决场景分类任务的现有方法，基于具有低级手工设计特征的特征编码方法或无监督特征学习，只能产生具有有限表示能力的中间图像特征，这基本上阻止了它们实现更好的性能。最近，在大规模数据集上训练的分层结构的深卷积神经网络（CNN），已经在对象识别和检测中表现出惊人的性能。然而，仍然不清楚，针对高分辨率遥感（HRRS）场景分类，如何使用这些深卷积神经网络。在本文中，我们调查研究如何从这些成功预训练的CNNs，为HRRS场景分类迁移特征。我们提出通过从不同层中提取CNN特征来生成图像特征的两种情况。在第一种情况下，从全连接层提取的激活向量被视为最终图像特征;在第二种情况下，我们以多个尺度从最后的卷积层提取密集特征，然后通过常用的特征编码方法将密集特征编码为全局图像特征。在两个公共场景分类数据集的广泛实验证明，通过以上两个情况获得的图像特征，即使使用简单的线性分类器，也可以产生显著的性能并且以显著的优势超越现有技术。结果表明，来自预先训练的CNN的特征很好地推广到HRRS数据集，并且比低级和中级特征更具表达性。此外，我们暂时结合了从不同的CNN模型提取的特征，以获得更好的性能。

一、引言

随着在过去十年中遥感成像技术的迅速增加，现在可以获得大量的高分辨率遥感（HRRS）图像，从而使我们能够更详细地研究地面。HRRS图像的场景分类，其目的是将提取的覆盖多个土地覆盖类型或地面对象的HRRS图像的子区域分类为不同的语义类别，这是一个基本任务，对许多实际的遥感应用来说是非常重要的，例如土地资源管理，城市规划和计算机制图等[1-8]。通常，一些相同的土地覆盖类型或对象类经常在不同的场景类别之间共享。例如，作为两个典型场景类别的商业区域和居住区域，可以同时包含道路，树木和建筑物，但是这三个主题类别的密度和空间分布不同。因此，HRRS场景中的空间和结构模式的这种复杂性使得场景分类成为相当具有挑战性的问题。

构建整体场景表示是用于场景分类的直观可行的方法。视觉词包（BOW）模型[9]是解决遥感社区中场景分类问题最流行的方法之一。它最初是为文本分析开发的，它通过文字的频率对文档建模。BOW模型还适于通过用聚类方法量化局部特征而构造的“视觉词”的频率来表示图像。考虑到BOW表示没有考虑空间信息，所以已经开发了基于BOW模型的许多变体方法[5,10-14]，用于提高描绘局部特征的空间关系的能力。然而，这些基于BOW的方法的性能强烈地依赖于提取的手工制作的局部特征，例如局部结构点[15,16]，颜色直方图和纹理特征[17-19]。因此，一些研究人员引入了无监督特征学习（UFL）程序[20]，它可以通过特定的无监督学习算法，从大量未标记的数据中自动学习适当的内部特征，而不是设计的特征，从而获得好的结果。

然而，采用提出的成功的基线模型的微小变体，似乎HRRS场景分类的性能近年来仅取得了很小的改进，这主要是因为现有的方法不能为HRRS场景生成足够强大的特征表示。事实上，BOW和UFL方法在某种程度上产生中级形式的特征表示。因此，更有代表性和更高级别的特征是期望的，它们是较低级特征的抽象并且可以表现出更大的判别性，并且在场景分类任务中一定将起主导作用。

最近，深度学习方法[21-23]不仅在语音识别，对象识别和检测以及自然语言处理等经典问题上取得了巨大的成功，而且在许多其他实际应用中也取得了巨大的成功。这些方法在广泛的领域已经取得了显著的改进，超越了最先进的记录，他们在学术和工业社区引起了相当大的兴趣。一般来说，深度学习算法试图学习对应于不同抽象级别的层次特征。深度卷积神经网络（CNN）[24]被认为是最成功和广泛使用的深度学习方法，由于在许多基准上取得了显著结果[ 25-28]，所以在大多数识别和检测任务中也是主要方法。CNN是一个由卷积层，pooling层和全连接层组成的由生物启发的多级结构，并且它可以以完全监督的方式有效地训练。然而，在实践中用小数据集训练高性能的深CNN是困难的。目前，许多最近的研究[29-34]已经证明，从在大型数据集上（如ImageNet [35]）预训练的深层CNN，学习到的中间激励可以迁移到许多其他具有有限训练数据的识别任务。我们可以很容易地提出以下问题：我们是否可以将成功预训练的CNN迁移到HRRS场景分类，这也是一个有限训练数据的典型识别任务？据我们所知，这个问题仍然不清楚，除了与我们同时进行的作品[36,37]。

在本文中，我们调查研究把现成的预训练的CNN迁移到HRRS场景分类上，并尝试从CNN激励对图片场景形成更好的表示。通过去除CNN的最后几层，我们将CNN的剩余部分视为固定特征提取器。考虑到这些预先训练的CNN是大的多层架构，我们针对不同层提取CNN特征提出了两种情况：

（1）我们简单地计算整个图像场景上的CNN激励并且将全连接层的激励向量视为场景的全局特征表示;

（2）我们首先从具有原始输入图像场景的多个尺度的最后卷积层生成密集CNN激励，然后通过常规特征编码方案（例如BOW和Fisher编码）将密集卷积特征聚合成全局表示。这些密集的CNN激励描述了多尺度空间信息。

在通过CNN进行特征提取阶段之后，图像场景的全局特征被馈送到用于场景分类任务的简单分类器。广泛的实验表明，我们可以通过迁移预训练的CNN模型，针对HRRS场景，生成强大特征，并在两个公共场景数据集上实现最先进的性能。

contribution：

（1）我们彻底研究如何有效地把来自全连接层和卷积层的CNN激励作为图像场景的特征。

（2）我们对用于计算通用图像特征的各种预训练的CNN模型进行比较评估

（3）提出了一种用预训练的CNN进行的新的多尺度特征提取方法，其中我们编码来自卷积层的密集CNN激励，以通过特征编码方法生成图像场景表示。此外，基于所提出的方法来评估四种常用的特征编码方法。

（4）与两种公共HRRS场景分类基准上的现有方法相比，两种提出的场景实现了显著的性能增强，并且为通过深度学习方法进行的HRRS场景分类提供了可参考基线。

本文的其余部分组织如下。

在第2节中，我们简要回顾一些相关的作品，对应于一些最先进的场景分类方法，CNN和迁移CNN激励到视觉识别任务。

在第3节中，我们介绍CNN的经典架构和一些最近报告的在我们的工作中使用的大型CNN。

在第4节，我们提出使用预训练的CNN模型提取图像表示的两种情况。

我们的实验和结果的细节在第5节中给出。

最后，我们用一些评论来得出这篇论文的结论。

此外，我们列出了本文中的重要项目及其相应的缩写，如表1所示，为了快速和简明的参考。

二、相关工作

视觉词包（BOW）模型在HRRS场景分类中是非常流行的方法。在BOW的一般流水线中，首先提取图像的局部特征（例如SIFT特征），然后将每个特征编码到其最接近的视觉词;最终图像表示是直方图，其中每个bin计算着视觉词上的局部特征的出现频率。许多研究人员基于HRRS场景的具体特性提出了改进的BOW变体：Yang等人[5] 提出了描述视觉词的空间分布的空间同现核（SCK）。Chen等人[13]提出了一种平移和旋转不变的金字塔空间关系（PSR）模型来描述局部特征的相对和绝对空间关系;Zhao等人[11]提出了一种同心圆结构的多尺度BOW（CCM-BOW）模型来实现旋转不变性;和Cheng等人[38]开发了一个旋转不变框架，基于可以捕获图像的歧视性视觉部分的部分检测器（COPD）的集合。虽然这些方法已经实现了良好的性能，但它们本质上是经典BOW模型的扩展，并且由于这些低级和中级特征的有限的代表性能力，难以实现性能的显著增强。

无监督特征学习（UFL）[20]最近成为机器学习领域中的一个热门研究课题。UFL方法通过无监督学习算法从大量未标记的样本中自动学习特征，无监督学习算法可以发现隐藏在数据本身中的更有用或有判别性的信息。已经出版了将UFL方法用于HRRS场景分类的若干作品。

Cheriyadat [4]使用稀疏编码算法来学习图像场景的稀疏局部特征和池化局部特征以生成图像表示。Zhang等人[39] 使用经典的神经网络，称为稀疏自动编码器，其在一组选择性图像碎片上被训练，以提取局部特征。Hu等人[40]通过学习低维图像块上的特征改进了UFL。虽然UFL方法没有手工设计的特征，但由于它们的浅学习架构，仍然导致有限的性能改进（甚至比BOW模型更糟糕）。

虽然我们最近见证了CNN的压倒性的人气，但CNN的原始概念可以追溯到Fukushima的生物灵感的“neocognitron”[41]，一个图像平移的不变性的分层网络。LeCun等人[24]首先成功地基于反向传播算法来训练CNN架构，他们在字符识别中取得了领先的成果。随着支持向量机（SVM）的兴起，CNNs曾经被学术界遗弃。

在过去几年中通过深度CNN在许多具有挑战性的视觉识别基准上实现了戏剧性突破，这导致CNN在计算机视觉领域再次获得了相当大的人气。

然而，训练深层的CNN是非常困难的，通常一些具有少量训练样本的特定任务就有数百万个参数。最近越来越多的作品表明，从在充分的大规模数据集（例如ImageNet）上训练的深度CNN提取的中间特征可以成功地应用于广泛的视觉识别任务，例如场景分类[29,43]，对象检测[34,44]和图像检索[25,43]。几乎所有的工作都是利用来自全连接层的CNN激励，而来自卷积层的特征没有得到足够的关注。Cimpoi等人[45]最近在纹理识别方面表现出令人印象深刻的性能，通过Fisher编码池化卷积层中的CNN特征，这表明来自卷积层的激励也是强大的通用特征。

在遥感领域，仍然缺乏对使用CNN进行HRRS场景分类的研究;因此，我们试图对这个问题提出一个全面的研究。

我们的工作与[36,37]最相关，这是与同时进行的作品。在[37]中，作者使用预训练的CNNs，并在场景数据集上进行微调，显示令人印象深刻的分类性能，而我们在没有任何训练形式（从头开始微调或训练）的情况下迁移用于场景数据集的预训练的CNN，并且仅仅将预训练的CNN作为固定特征提取器。在[36]，作者评估了在遥感图像分类中来自全连接层的CNN特征的泛化能力，并在公共HRRS场景数据集上显示了最先进的结果。

与[36]相反，我们不仅从全连接层，而且从卷积层研究CNN特征，我们评估更多的预训练的CNN模型，并且在各种设置下呈现更详细的比较实验。

因此，本文提供了一个更系统的研究，关于利用预训练的CNN进行HRRS场景分类任务。

三、深层卷积神经网络

CNN的典型架构由多个级联阶段组成。卷积（conv）层和pooling层构成前几个阶段，典型的阶段如图1所示。卷积层输出特征映射，其每个元素通过计算其在输入特征映射中连接的局部区域和一组权重之间的点积来获得。通常，元素智能非线性激活函数被应用于这些特征映射。池化层沿着特征映射的空间维度，通过计算局部区域上的最大值，执行下采样操作。全连接（FC）层最终跟随在几个堆积的卷积和池化层后面，最后一个全连接层是一个Softmax层，计算每个定义类的分数。CNN通过网络以前馈方式将输入图像从原始像素值变换到最终类的分数。CNN的参数（即卷积层和FC层中的权重）用基于反向传播算法的经典随机梯度下降训练[46]。

在本节中，简要回顾在我们的作品中评估的一些成功的现代CNN架构。

3.1. AlexNet

AlexNet由Alex Krizhevsky等人开发[25]，是一个开创性的深度CNN架构和，并且是2012年ImageNet大规模视觉识别挑战（ILSVRC-2012）的获奖模型[47]。与早期的CNN模型相反，AlexNet由五个卷积层组成，其中第一，第二和第五层之后都跟着池化层，三个全连接的层，如图2所示。

AlexNet的成功归因于一些实用的“技巧”，如整流线性单位（ReLU），非线性，数据增加和Dropout。 ReLU，其仅仅是半波整流器函数f（x）= max（x，0），可以显著的加速训练阶段;数据增加是当训练大CNN时减少过拟合的有效方式，其通过剪切小尺寸的碎片并水平翻转这些来自原始图像的碎片来生成更多的训练图像样本;并且Dropout技术通过随机地将每个隐藏神经元的输出设置为零，来减少神经元的共适应，其被用于全连接层中以减少大量过拟合。总之，AlexNet的成功推广了大型CNN在视觉识别任务中的应用，因此，AlexNet已经成为现代CNN的基线架构。

3.2. CaffeNet

用于快速特征嵌入的卷积架构，（也称为Caffe [28]）是一个开源深度学习框架，它为有效地训练和部署通用的CNN和其他深层模型，提供了清晰，可修改和可能地最快的可用实现。在本文中，我们将使用由Caffe（简称CaffeNet）提供的预先训练的CNN，其具有与AlexNet非常类似的架构，除了两个小的修改：（1）没有数据增加的训练，（2）交换了池化和归一化层的顺序。CaffeNet也在ILSVRC-2012训练集上进行了训练，并取得了接近AlexNet的性能。

3.3. VGGNet

为了评估不同的深层CNN模型的性能，并在共同的基础上对它们进行比较，Chatfield等人[33]基于Caffe工具包开发了三种CNN架构，每个都探索不同的速度/精度权衡：

（1）VGG-F：快速CNN架构类似于AlexNet。与AlexNet的主要区别是一些卷积层中更少的过滤器和小步幅。

（2）VGG-M：中等CNN结构类似于Zeiler等人[32]提出的结构。它在第一卷积层中具有较小的步幅和pooling大小。第四卷积层中有较少数量的滤波器，这样做是为了平衡计算速度，

（3）VGG-S：慢速CNN架构是OverFeat框架中精确模型的简化版本[26]，其保留了原始准确的OverFeat模型六个层的前五个卷积层，并且在第五层中具有较少数量的滤波器。与VGG-M相比，主要区别在于第二卷积层中的小步幅和第一和第五卷积层中的pooling的尺寸。

3.4. VGG-VD Networks

Simonyan等[27]开发了非常深的CNN模型，赢得了ILSVRC-2014的亚军。两个非常深的CNN取得了令人印象深刻的结果，称为VGG-VD16（包含13个卷积层和3个全连接层）和VGG-VD19（包含16个卷积层和3个全连接层），证明网络的深度在提高分类精度中起着重要作用。VGG-VD网络也是用于提取图像CNN激励的非常流行的候选模型。

3.5. PlacesNet

由Zhou等人[48]开发的PlacesNet，与CaffeNet具有相同的架构。

它是在Places数据库上训练，一个大规模的场景为中心的数据集，有205自然场景类别，而不是在ImageNet上训练。作者表明，对于识别自然场景，PlacesNet的深层特征比对在ImageNet上训练的CNN的深层特征更有效。我们将评估PlacesNet，以验证它是否在HRRS场景基准中取得了出色的性能。

四、迁移用于场景分类的深层CNN特征的方法

如前所述，来自预训练的CNN的高级别层的激励已被证明是具有优异性能的强大的通用特征表示。然而，在几乎所有的出版作品中，只有倒数第二层的4096维激励被广泛用作最终图像特征。从较低层，特别是卷积层提取的特征缺乏足够的研究。在本节中，为了研究卷积层和FC层的深特征的有效性，我们提出了利用深层CNN特征进行场景分类的两种场景，如图3所示。

4.1 情况（I）：使用FC层的特征

遵循先前工作的标准流程，我们去除预训练的CNN的最后的FC层（Softmax层），并将CNN的其余部分作为固定特征提取器。通过将输入图像场景馈送到CNN中，我们以前馈的方式直接从第一或第二FC层计算4096维激励向量，并将该向量视为输入图像的全局特征表示。最后，我们通过训练具有4096维特征的线性SVM分类器来实现场景分类。

虽然这种情况非常简单，但应考虑几个实践的细节：

（1）因为所有预训练的CNN都需要一个固定大小（例如，224×224）的输入图像，所以我们事先应该通过将每个图像场景馈送到网络中，将每个图像场景调整为固定大小。当图像的原始大小大于CNN的预定义大小时，这种大小的约束导致空间分辨率不可避免的下降。

（2）虽然数据增加是在训练阶段减少过拟合的有效技术，但最近的工作表明，在测试阶段，数据增加是通过对多个子图像窗口进行采样，并对这些子图像的激励求平均来进行的，这样做也有助于提高分类性能。

在本文中，我们还应用普遍的“水平翻转中心+角落”的增强策略[25,32,33]以提高准确性。我们提取了五个子图像窗口（具有CNN的所需大小），对应于中心和四个角，以及它们的水平翻转，然后我们通过平均十个子图像窗口上激励向量来构建每个图像的全局特征。

（3）通常的实践方法，4096维输出特征应该经历ReLU变换，使得特征的所有元素是非负的。我们还评估了没有ReLU的特征，但是获得了略差的性能。

4.2 情况（II）：使用卷积层的特征

与来自FC层的CNN特征的普及相反，来自中间卷积层的特征似乎缺乏实际用途。尽管FC层的特征捕获全局空间布局信息，但它们仍然对全局旋转和缩放相当敏感，这使得它们不太适合于在定向和尺度上极大不同的HRRS场景。因此，我们将卷积层产生的特征映射视为密集特征，并通过无序特征编码方法聚合它们[49,50]。

在场景（II）中，通过去除所有FC层，我们从最后的卷积层输出特征映射。

沿着特征映射的每个实体可以被认为是“局部”特征，并且特征的长度等于特征映射的数量。如[44]中所讨论的，固定尺寸图像的需求仅来自FC层，卷积层不需要图像具有固定大小。由于在场景（II）中不涉及FC层，我们可以对任何大小的输入图像自由地提取卷积特征。

在这里，我们提出通过将多种尺寸大小的输入图像馈送给预训练的CNN来提取多尺度密集卷积特征，以捕获HRRS场景中的多尺度信息。令Fs（m）是在尺度索引s处从图像Im提取的密集卷积特征的集合。然后通过组合不同尺度的所有Fs（m）获得完整的特征集合，其被表示为由N个D维特征组成的F（m）= [x1，x2，...，xN]∈R。在这里，我们介绍四种常规的特征编码方法，即BOW [9]，局部约束线性编码（LLC） [51]，改进的Fisher内核（IFK）[52]和局部聚合描述符（VLAD），以将特征集合F（m）编码为每个图像Im的全局特征表示。

注意，BOW，LLC和VLAD是基于通过K-means构造的码本来编码特征，而IFK以高斯混合模型（GMM）所描述的概率密度分布对特征进行编码。在为每个图像场景生成全局特征后，我们使用简单的线性SVM直接实现场景分类，用于训练和测试。

五、实验分析

在本节中，我们调查研究了CNN特征的表示能力，并评估两种提出的情况下，迁移CNN特征，用于在各种预训练的CNN模型上进行的HRRS场景分类。还提出了详细的实验设置和具有合理分析的许多实验。

5.1实验设置

我们在以下两个公开可用的土地使用数据集上评估深层CNN特征的有效性：

（1）UC Merced Land Use Dataset.

UC Merced数据集（UCM）[5]，从大型航空正射图手动收集的，包含21个不同的场景类别。每个类由100个大小为256×256像素的图像组成。每个图像具有一英尺的像素分辨率。图4显示了此数据集中包含的每个类别的两个示例。注意，该数据集在具有类似对象或结构模式（例如，密集住宅和中等住宅）的一些类别之间显示非常小的类间多样性，这使UCM数据集是具有挑战性的。

（2）WHU-RS Dataset.

从Google Earth（Google Inc.）收集的WHU-RS数据集[6]是一个新的公开可用的数据集，其包含大小为600×600像素的950幅图像，均匀分布在19个场景类中。一些示例图像如图5所示。我们可以看到，一些类别中的照明，尺度，分辨率和viewpoint-dependent外观的变化使得它比UCM数据集更复杂。

对于情况（I）中的实验，对第3节中引入的所有预训练的CNN模型进行评估和比较。考虑到这些CNN的输入图像的预定义大小要求，我们将所有AlexNet，CaffeNet和PlacesNet的图像的大小调整为227×227，其他的CNN为224×224。我们唯一进行的预处理是从每个像素减去在训练集上计算的每像素平均值（使用RGB通道），这是计算CNN激励之前的常规阶段[25,27,32,43]。来自第一或第二FC层的最后的4096维特征向量被馈送到线性SVM分类器而没有进行任何归一化。在数据增加的情况下，我们根据所需的大小裁剪10个子图像（中心，四个角和它们的水平翻转），我们还通过平均减法预处理裁剪的图像。对于每个图像场景，我们平均由其10个子图像产生的4096维激励以生成最终的图像表示。

对于情况（II）中的实验，我们使用上述四种特征编码方法来评估CaffeNet，VGG-M和VGG-VD16的密集的CNN特征。默认情况下，从最后的卷积层提取没有ReLU的密集CNN特征。我们设置三个不同的图像尺度以产生多尺度密集特征：UCM图像的原始大小为256×256和512×512，设置大小为128×128，以及WHU-RS图像的原始大小为600×600，设置大小为150×150,300×300。事实上，太小或太大的比例因子都不会导致更好的性能。具有太小比例的输入图像导致来自最后的卷积层的特征映射非常小（在卷积池化的几个阶段之后，特征映射的空间分辨率被大大减小），这使得以下特征编码阶段无效。具有过大尺度的图像会导致特征映射中有许多冗余特征，这对最终性能具有负面影响。此外，具有过大尺度的图像会使提取CNN特征的过程变得非常缓慢。通常，凭经验，从100×100到1000×1000的图像比例是适当的设置。在应用特征编码之前，密集特征被L2归一化。虽然BOW，LLC和VLAD的编码阶段都依赖于通过K-means聚类学习的码本，但是我们经验地设置不同数量的码字，对于每种方法，码字被分配为1000,10,000和100，以达到良好的性能。在IFK编码特征的GMM中的高斯分量的数量经验地设置为100。

我们随机选择每个类的样本用于训练SVM分类器，其余的用于测试，对两个数据集采用与[5,54]相同的抽样设置，分别是：对于UCM数据集每类80个训练样本，对于WHU-RS数据集每类30个训练样本。分类精度通过A = Nc / Nt来测量，其中Nc表示测试样本中正确分类的样本的数量，Nt表示测试样本的总数。我们使用平均精度A评估最终分类性能（每次运行都随机地选择训练和测试样品），超过50次运行。公共LIBLINEAR库[55]用于SVM训练和用线性内核的测试。我们还使用开源库VLFeat [56]来实现特征编码方法，并使用Caffe来提取CNN特征。本文使用的预先训练的CNN模型在Caffe Model Zoo [57]中提供，使用2.4 GHz四核Intel Core i7 CPU和GeForce GT 750M 2 GB GPU。

5.2 情况（I）的实验结果

我们首先测试来自第二FC层的CNN特征，这是在许多工作中使用的一般情况。在八个不同的预训练的CNN模型上的场景（I）的分类性能显示在表2中。所得到的高分类准确率显示了从ImageNet数据集迁移到HRRS场景数据集的预训练的CNN的强大能力。VGG-S特征在UCM和WHU-RS上实现最佳结果，并略胜于具有与VGG-S类似的结构的VGG-M和VGG-F的特征。VGG-VD网络由相当多的层组成，并且在许多自然图像分类基准上实现比其他浅CNN模型更好的性能，但是在实验中却没有达到预期的效果，甚至比基线AlexNet在HRRS上表现更差。PlacesNet在自然场景数据集上一直优于AlexNet，但这次试验中性能远逊于AlexNet，揭示了HRRS场景中的结构和纹理模式与自然场景中的结构和纹理模式非常不同。

我们还介绍了来自第一FC层的CNN特征的分类结果，如表3所示。显然，采用不同的CNNs，从第一FC层提取的特征导致比来自第二层的特征稍微更好的性能，这可能是由于CNN的较早层包含更多对于其他数据集有用的通用特征。数据增加的效果在表3中验证。在所有情况下，通过数据增强实现的更好的性能证实了它是用于提高性能的简单但有效的技术。我们还注意到，VGG-S模型始终优于其他CNN，除了对来自第一FC层的特征，在UCM上的进行数据增加的情况，其中VGG-VD16实现最佳精度。

我们评估计算用于UCM数据集中的所有图像场景的每个预训练的CNN模型的CNN特征的时间消耗（以秒为单位测量），如图6所示。正如所料，AlexNet，CaffeNet，VGG-F和PlacesNet由于其非常相似的架构（实际上，CaffeNet和PlacesNet共享相同的架构），所以具有几乎相同的计算成本。因为VGG-VD16和VGG-VD19的层比其他CNN的层更多，所以两个模型导致了更多的时间消耗。

为了直观地理解CNN激励，我们通过使用[58]中提出的技术将每个层的表示反转成重建图像来可视化，如图7a所示。非常有趣的是，（1）卷积层的特征可以被重建为类似于原始图像的图像，随着进入更深层而变得更加模糊;（2）尽管FC层的特征不能反转为可识别的图像，但是重建图像包含随机分布的许多相似的有意义的部分（例如，飞机的机翼）。这些结果表明，FC层重新排列来自低层的信息以产生更抽象的表示。

更多的重建示例如图7b所示。此外，我们报告了来自不同卷积层的特征映射上的局部区域的重建结果，如图8所示。我们可以看到，对于较深层的特征映射上的神经元，关于输入图像的接受域大小变得更大。

5.3 情况（II）的实验结果

5.3.1 特征编码方法的比较

当使用不同的预训练的CNN来提取密集卷积特征时，BOW，VLAD，IFK和LLC的总体性能在表4中示出。

值得注意的是，最简单的BOW方法导致了这样高精度，并且可与复杂VLAD和IFK相比。UCM上的BOW的最佳精度（96.51％，VGG-VD16）超过使用没有数据增强的FC特征的所有结果，并且它非常接近最佳的结果（96.88％，具有数据增强）;在WHU-RS（98.10％，使用VGG-VD16）上的BOW的最佳精度甚至超过了所有结果，即使是使用了数据增强的。除了VLAD使用VGG-VD16产生的最佳结果（98.64％）之外，IFK在两个数据集上比BOW和VLAD工作略好，而LLC在所有情况下执行最差。我们还获得了关于VGG-VD16的有趣的结果，当使用FC特征（在表2中）时，其性能比其他CNN模型差，并且当使用卷积特征时，其工作得非常好（比CaffeNet好，与VGG-M相比）。一个可能的解释是，VGG-VD模型的FC特征更具体地针对ImageNet数据集中的类别，而卷积特征更广泛地适用于其他数据集。

为了进一步比较两种提出的方案，我们报告了用不同数量的训练样本进行的分类性能，如图9所示。我们观察到这两个场景一致地在UCM上实现高度可比的准确率，而情景（II）在WHU-RS上明显地优于情景（I）。

该结果可能是由于以下原因：在情景（I）中的实验中，由于UCM中的图像（256×256）的大小非常接近这些CNN所需的大小（224×224或227×227），调整大小的操作导致很少的信息丢失;然而，对于WHU-RS中的图像，我们通过将600×600像素的图像重新缩放到所需尺寸从而不可避免地丢失相当大量的信息。因此，场景（I）在UCM上的性能不如在WHU-RS上的性能好。总的来说，提出的场景（II）比场景（I）更好，特别是对于由大尺寸图像组成的数据集。

5.3.2 图像尺度的影响

使用关于三个图像尺度的卷积特征来获得表4中报告的结果。在这里，为了验证这种经验设置的有效性，我们还使用IFK在几种不同的尺度设置下评估性能，如表5所示。我们可以看到，三个尺度通常导致最高的准确性，除了在使用CaffeNet时略差于两个尺度。一个尺度（即，原始图像）和四个尺度不如三个尺度工作得好。因此，我们得出结论，与单尺度密集卷积特征相比，多尺度特征有利于增加分类精度，但是由于特征相当多的冗余，过多尺度的密集特征可能对精度具有负面影响。

5.3.3不同的卷积层的影响

虽然我们用来自最后卷积层的密集特征，已经取得了令人瞩目的性能，但是从哪一个卷积层提取密集特征可以导致最佳精度是值得讨论的。从VGG-M架构的每个卷积层提取的密集特征的结果在图10中示出。

显然，分类精度随着层的深度逐渐增加。如所预期的，来自第五卷积层（即，最后一个）的特征在两个数据集上取得最佳准确度。这个实验还证明了高级别层的特征是低级别层的特征的抽象，并且对分类任务更有判别性。此外，我们观察到IFK一直优于其他三种方法;特别地，当从第一卷积层提取特征时，IFK特征以绝对优势优于其他特征，这表明IFK对于编码较少标示性特征是合适方法。

5.3.4 与低级别的特征比较

为了证明密集CNN特征的判别能力，我们将它们与最低级别的特征-SIFT描述符进行比较。我们使用密集的SIFT特征（从重叠的局部图像块提取）而不是密集的CNN特征来进行场景（II）的相同流程，并且SIFT特征的性能在表6中示出。对于每种特征编码方法，都将来自CaffeNet，VGG-M和VGG-VD16的致密CNN特征（如表4中所报告的）的最佳结果与SIFT特征进行比较。我们可以看到，在IFK情况下，密集的CNN特征优于SIFT的精确度大约12％，在其他三种情况下为约20％，这揭示了密集CNN特征的表示性能力的显著优势。图11显示了具有SIFT特征和密集CNN特征的IFK的混淆矩阵。密集的CNN特征为大多数场景类别提供了100％的准确性，并大大提高了以下类别中的性能：飞机（55％→100％），密集住宅（70％→90％）和储罐（35％→80 ％）。

此外，我们可视化在UCM数据集上通过IFK的SIFT特征和密集的CNN特征编码的图像的全局表示。来自第一FC层的图像表示（即，场景（I））也被可视化以用于比较。这里，我们首先计算数据集中所有图像场景的特征，然后使用t-SNE算法[59]将高维图像特征嵌入到2维空间中。我们显示这些2-D嵌入点具有对应于其实际场景类别的不同颜色。最终的可视化结果示于图12中。值得注意的是，在没有任何训练阶段的情况下，来自情况（I）和（II）的2D特征很自然地倾向于形成明显分离的簇。相比之下，通过具有SIFT特征的IFK的2-D特征仅形成几个可见聚类，并且许多特征以混乱的顺序彼此重叠。这个观察与深度学习的常识兼容，从FC层和卷积层提取的CNN特征是包含更多抽象语义信息的高级特征，而手工制作的特征是低级特征。

5.4 与最先进的方法的比较

如表7所示，我们将通过情况（I）和（II）获得的最佳结果与已经报道了UCM数据集上的分类准确率的各种最先进的方法进行比较。如预期，两个提出的方案大大优于所有的方法，除了GoogLeNet +微调方法[37]。与使用具有低级手工设计特征和非线性分类器的复杂学习策略的大多数方法相反，我们的方法更直接和简单：（1）从预训练的CNN的FC层或卷积层方便地提取特征和（2）使用简单的线性分类器来训练和测试。此外，如图9a所示，即使只有非常少量的训练样本，我们的方法仍然实现大于91％的准确性（场景（I）的VGG-S为91.62％，场景（II）的BOW为91.82％），超过了大多数现有方法。虽然所提出的方法的性能比在[37]中提出的方法稍差，但是直接比较我们的方法，是不公平的。GoogLeNet +微调方法精细调整了目标数据集上的预训练CNN（GoogLeNet [42]），而我们只是将图像馈送给网络，而不改变预训练的CNN的参数，从而直接提取CNN激活。在WHU-RS数据集上，我们的方法比[54]中提出的方法（93.6％）实现了更好的性能（96.71％的情景（I）和98.64％的情景（II））。

总的来说，通过具有CNN特征的两种提出方案在公共基准上获得了显著的分类结果，其优于几乎所有报告的结果并且具有显著的增益。

5.5 组合两种方案的特征

在以前的实验中，我们仅通过情景（I）或（II）产生全局图像表示。

我们可以进一步实验，结合这两个框架计算的特征。由于尺度和长度的巨大差异，我们应该在连接它们之前预处理这两种类型的全局特征。对于情景（I），4096维图像特征是L2归一化;对于场景（II），我们对图像特征（其一般具有大于50K的相当高的维度）执行PCA，并将它们减小到4096维，随后利用L2归一化对它们进行归一化。请注意，我们不对用BOW编码的图像特征应用PCA，因为根据默认实验设置，生成的特征只有1000维。在归一化和降维之后，我们连接这两个特征以形成新的图像表示。在这里，我们提出一些试验性组合，使用不同的预训练的CNN或特征编码方法，结果如表8所示。我们观察到，在UCM数据集上，组合特征提高了性能，与单独的情况相比，增加了大约1％-2％的增益，而它们在WHU-RS数据集上仅实现了稍微的改善。尽管在[36]中，作者通过直接连接由两个预训练的CNN（CaffeNet和OverFeat）计算的FC层的特征向量，实现了更好的性能，但我们相信通过更多的互补组合可以获得更好的性能。

6.讨论

从上述广泛的实验中，分别利用来自FC层和卷积层的CNN激活的两种提出的情况，已经被证明对HRRS场景分类是非常有效的。具体来说，实验的几个有趣但实用的观察总结如下：

（1）从FC层和卷积层提取的特征具有比低级手工制作特征更强的表示能力。结合简单的线性分类器，这些CNN特征可以产生非常显着的性能，这也揭示了在大型自然图像数据集训练的深层CNNs广泛地适用于HRRS数据集。

（2）如图7所示，我们可以反转，来自非常深的层的CNN特征（例如，第五卷积层），来构建可识别的重建图像。该结果表明即使从非常深的层，提取的CNN特征仍然保留足够用于描述图像的丰富的有用信息。

（3）对于HRRS场景数据集，由于其更通用的能力，来自第一FC层的CNN特征一直比在许多作品中广泛使用的第二FC层的CNN特征更好地工作。

此外，数据增强技术被验证为有益于增加最终分类性能。

（4）预训练的CNN模型的选择也影响最终性能。总体而言，VGG-S模型在提取FC特征时，在八个评估的CNN模型中产生最佳性能;关于平衡精度和计算成本，VGG-M模型在提取密集卷积特征时是更好的选择。此外，使用大型自然场景数据集进行了专门训练并在许多自然场景基准上取得了令人印象深刻的成果的PlacesNet，在HRRS场景数据集上的性能远低于其他CNN模型。这个结果表明，在自然场景和HRRS场景之间的结构和纹理模式中存在相当大的差异。

（5）如果特征足够好，例如所提出的多尺度密集卷积特征，那么非常基本的特征编码方法（例如，BOW）可以实现尽可能与最佳性能竞争的结果。IFK通常胜过其他三种特征编码方法，特别是从较低卷积层提取的特征。

（6）在情景（I）中，当提取FC层的特征时，我们需要首先将图像场景调整到所需要的预训练模型的大小，而我们可以直接提取场景（II）中任何大小的图像的密集卷积特征。当输入图像的大小远远大于所需大小时，情况（I）将丢失大量信息。因此，对于由大尺寸图像组成的HRRS场景数据集，密集卷积特征比FC层的特征更合适。

（7）从两个场景中提取的特征在一定程度上是互补的，因此，通过组合这两个场景的特征表示来进一步改进分类性能。

这些观察可以为我们提供非常有意义的指令，关于将深层CNN特征用于新的HIRES场景数据集或遥感领域中的任务。

7.结论

在本文中，我们全面调查研究了将ImageNet数据集上训练的CNN的激励迁移到HRRS场景分类任务。为了获得用于分类的强大的全局图像表示，通过利用来自预训练的CNN的不同层的CNN激活，提出了两种情况：从全连接层直接提取特征，从卷积层编码多尺度密集特征。

我们在两个公共HRRS场景数据集上评估我们的方法，UCM数据集上达到96.90％和WHU-RS数据集上达到98.64％，实现了显著的整体分类精度。

正如所料，我们的方法优于那些只专注于探索低水平的手工制作特征的最先进的方法，在UCM上增益高达约2.5％，在WHU-RS上增益高达约5％。

与也在研究CNNs的某方法相反，即使我们不在我们的方法中对预训练的CNN应用任何微调策略，我们的方法也仅比精细地微调CNN的最佳方法差0.2％。此外，组合这两种情况在UCM中提高约2％，在WHU-RS中提高约0.5％。这些令人印象深刻的结果表明，不仅全连接层的特征，而且预训练的CNN的密集卷积特征也是有判别性的和强大的图像表示，广泛适用于HRRS场景数据集。

在未来的研究中，我们计划研究更复杂的策略来编码密集的CNN特征，以改善表示的不变性。我们还希望将CNN特迁移移到其他遥感任务，如大型卫星图像的语义标记和分割。

2 0