In Defense of Nearest-Neighbor Based Image Classification

来源：互联网发布：淘宝店铺添加手机桌面编辑：程序博客网时间：2024/06/02 19:29

OrenBoiman, Eli Shechtman, Michal Irani. In Defense of Nearest-Neighbor Based ImageClassification. IEEE Conference on Computer Vision & Pattern Recognition,2008, 69(4): 1～8

这篇文章是我在做本科毕业设计《基于视频的运动目标检测与分类》时翻译的文献。翻译得不是很好，仅供参考。贴上来之后发现图片和公式传不上来，大家只能去原文中找对应的了。

基于最近邻的图像分类

摘要：目前最先进的图像分类方法需要一个强化训练过程，比如支持向量机方法或者Boosting算法。相反，基于非参数的最近邻（NN）的图像分类方法不需要任何训练过程，并且这种方法还有一些其他的优良特性。然而，这两大类的方法有比较大的性能差距，这使得基于最近邻的图像分类方法变得不是很有用。

但是我们认为基于非参数的最近邻图像分类方法的有效性是被严重低估的。我们认为是常用的两种图像分类中的做法使得基于最近邻的图像分类变得性能低下。一是局部图像描述符的量化（用来生成“词袋”，即码书）；二是计算的是图像对图像距离，而不是图像对类的距离。

我们提出了一种普通的基于最近邻的分类器——朴素贝叶斯近邻（NBNN）这种分类器在局部图像描述符的空间中采用了最近邻距离，而不是在图像的空间中。朴素贝叶斯近邻算法计算了图像到类的直接距离，而没有描述量化。我们还进一步证明了，在朴素贝叶斯假设下，理论上最佳的图像分类器和朴素贝叶斯近邻分类器效果近似相同。

尽管朴素贝叶斯近邻分类器很简单高效，并且不需要有训练过程，但是它的表现出的分类性能领先于需要有训练过程的图像分类器。通过采用几个有挑战性的数据库，我们展示了实例比较。

1.介绍

在计算机视觉邻域，图像分类问题已经得到了极大的重视。在过去的几年中，由于研究界的集中关注研究使得很多新的图像分类方法得以面世并且在几年里得到快速发展。比如说，在三年的过程中，基于加州理工学院101号数据库的图像分类比率由2004年的低于20%上升到2007年的接近于90%。

图像分类方法可以大致分为两大类：一、基于训练的分类器，这些分类器需要一个强化训练过程来得到分类参数。比如说支持向量机的参数、Boosting算法、参数生成模型、决策树、片段和对象部分等方法。这些方法也被称作带参数的方法。到目前为止领先的图像分类器都是基于训练过程的分类器，特别是基于支持向量机的方法。

二是非参数分类器。该方法直接对数据进行分类，不需要进行参数的学习和训练。最常见的非参数方法依赖于最近邻（NN）的距离估计，这里被称为“基于最近邻的分类器”。这里有一个特殊的例子是“最近邻图像”分类器（缩写为NN-图像），这种分类器可以在数据库中通过找到包含有跟它最近的（最相似的）图像的类别来对图像进行分类。虽然这种分类器在基于最近邻的图像分类器中比较常见，但是相对于有训练过程的分类器方法而言，它的分类性能比较低下。

非参数分类器具有很多需要学习的分类器所没有的优点：一、可以合理地处理具有大量类别的分类情况；二、可以避免参数过拟合，这是基于学习方法的一个核心问题；三、不需要学习或训练过程。尽管训练通常被看作是一个一次性的预处理步骤，但是参数的再次训练在一些较大的动态数据库可能需要几天，而改变类/训练集在非参数分类器中却是一瞬间的事。

但是不管这些优点，非参数基于最近邻图像分类器和最为先进的基于学习的方法之间的巨大的性能差异会让人觉得非参数图像分类器（特别是基于最近邻的图像分类器）是没有什么用的。但是我们认为基于非参数的最近邻图像分类方法的有效性是被严重低估的。我们认为是常用的两种图像分类中的做法使得基于最近邻的图像分类变得性能低下：

一、描述量化：图像通常可以被表示为其局部图像描述符的集合（例如SIFT算法、几何模糊、图像块等）。这些往往是被量化生成相对较小的“码书”（或“词袋”）来用于获得紧凑的图像表示。量化产生了一个显著的降维，而且也导致了在描述符辨别力上的显著退化。这样的降维对于很多基于学习的分类方法而言是必不可少的（为了计算方便，并防止过拟合）。但是对于非参数的分类方法而言这是不必要并且是特别有害的，因为它没有训练学习的阶段来补偿这一信息的损失。

二、“图对图”的距离对于核函数法是至关重要的，如支持向量机法。当用在基于最近邻图像分类器上时，如果查询图像和数据库中的某一幅图像相似的话那么它可以提供良好的图像分类，但是不能推广到远远超出了标记的图像。这个限制对于有较大多样性的类别来说是非常严重的。

在这篇文章中我们提出了一个非常简单的非参数的基于最近邻的分类器，它不需要描述量化，并采用直接的“图像到类”的距离。我们还证明了，在朴素贝叶斯假设下，理论上最佳的图像分类器和这个简单算法的效果近似相同。为了简单起见，我们把这种分类器叫做NBNN，这代表朴素贝叶斯近邻的意思。

NBNN算法的操作是相当简单的：给定一个查询图像，计算所有的局部图像描述符d1，d2，…,dn.查找可以使累加和达到最小的类别C，其中NN_C(d_i)是在类别C中d_i的最近邻描述符。尽管朴素贝叶斯近邻分类器很简单高效，并且不需要有训练过程，但是它的表现出的分类性能领先于需要有训练过程的图像分类器。通过采用几个有挑战性的数据库，我们展示了实例比较。

这篇文章的结构如下：第2章节讨论了导致基于最近邻图像分类器性能低下的原因。第3章节提供最佳的朴素贝叶斯图像分类的概率公式及其推导。第4章节我们展示了优化朴素贝叶斯分类器如何能够准确地近似一个非常简单的基于最近邻的分类器。最后第5章提供了其他方法的实证评价与比较。

2.什么导致了基于最近邻的图像分类器性能下降

有常用的两种图像分类中的做法使得基于最近邻的图像分类变得性能低下。

2.1. 量化操作会损伤非参数分类器

广义量化通常用于生成码书（或“词袋”）来获得紧凑的图像表示（例如量化描述的紧致直方图）。从数据中取出来的一大组的特征描述符（典型的从训练图像中提取出来的成千上百的描述符）可以被量化到一个相当小的码书（通常包含200到1000的具有代表性的描述符）。Lazebnik等人还进一步提出在直方图表示中添加粗糙的量化位置信息。这样有粗略量化的描述符的码书对于基于支持向量机的分类方法在图像分类中的具体应用是十分必要的。这样的量化码书在基于最近邻的图像分类方法中也可以用到，相比于参考文献27。

然而这样一个简单紧凑的量化码书是需要较高的成本的：正如即将显示的那样，由于粗糙的量化，有判别力的信息数量会急剧下降。基于学习的算法可以通过学习阶段来弥补这些信息的损失，从而导致良好的分类结果。但是对于那些简单分参数算法而言这行不通，因为它们没有学习阶段可以来弥补量化损失。

众所周知，频率高的描述符具有比较低的量化误差，而出现频率低的少见的描述符是具有较高的量化误差的。但是在一个大的图像数据库里出现的最高频率的描述符是由在数据库中所有类中出现的简单的边缘和角，因此在分类中所体现出的信息量是最少的（提供非常少的分类区别）。相反的是，用来分类的具有最大信息量的描述符是那些在一个类或者极少类中才能够出现的，但是在其他类中几乎没有。这些有区分度的描述在数据库中往往是罕见，从而有较高的量化误差。这个问题在图1中取自加州理工学院-101号数据库的脸的图像上可以得到体现，即使在使用一个比较大的量化描述符的码本。

图1：描述符量化的影响，信息量大的描述符在数据库中出现的频率较低，从而导致高的量化误差。

(a)来自加州理工大学-101数据库脸图类别的一张图；(b)使用来自101数据库的一本大码书（尺寸6000）的计算密集的图像描述符SIFT的量化误差；(c)绿色符号标记了在图片中8%的描述符，这些描述符都是在数据库中频率最高的（简单边缘）；（d）紫红色标记的地方也是图像中8%的描述符，但是这些描述符都是在数据库中出现的频率最低的（主要是面部特征）。

正如前面提到的[ 26，14 ]，当密集采样的图像描述符可以用直方图描述，直方图密度遵循一个定律（也被称为长尾或重尾分布）。这意味着大多数的描述符都是罕见的（比如说在低密度区域中发现的描述符），因此是有点孤立的。换句话说，描述符空间中几乎没有“簇”。因此，任何聚集到一个小数目的集群（甚至数千）会在大多数数据库描述符中不可避免地导致一个非常高的量化误差。因此，这样的长尾描述符的分布对量化而言是本来就是不恰当的。

高的量化误差会导致描述符辨别能力的下降。此外，描述符的信息量越大（判别力越强），它的区别退化就越严重。这在图2中得到定量显示。这张图证明了，由于量化导致了在101数据库中SIFT描述符的区分度（信息量）严重下降。描述符区分度的测量可以用来描述，这可以用来测量一个描述符d在它的类别C和其他类别非C间如果有效地得到区分。我们比较了量化前后所有101数据库类别中所有的描述符的平均区分度：

图2：描述符量化效应——描述符区分度的严重下降

我们生成了描述符区分度在量化前后的区分度的散点图（一个SIFT描述符的非常大的样本集，每一个都是表示其各自的类别C）。然后我们沿着y轴平均这个散点图。这就产生了量化后的平均区分度（红色曲线表示）。这两个轴的显示是对数刻度。注：一个描述符d的信息量越大，或者说区分度越大，那么它的区分度下降得也就越厉害。

通过信息特征选择已经提出了用来产生的紧凑码书的代替方法。但是这些方法只保留了一小部分具有高区分度的描述符或特征。特别是，他们放弃所有的低区分度的描述符。尽管特殊的是这样的描述符提供了很少的区分度，但是那里有大量这种描述符。但是把它们联合起来统一考虑，却发现它们提供了重要的区分度（这就像是几个弱分类器的合成）。当用少信息量的特征选择时，这种区分度是不会被利用的。

换言之，在一个长尾分布上的无论是量化还是信息特征选择，都是会造成巨大的信息损失。相反，我们在第四章出了一种替代的方法来有效地近似描述符分布，而不凭借量化或特征选择。这是借助于在描述符空间中的最近距离来实现的，并且被证明是高度适合长尾分布。我们的朴素贝叶斯近邻算法就是采用这种近似的，可以同时利用少量高信息量的描述符和大量低信息量的描述符的区分度。

在第五章，我们的经验表明，量化是导致非参数图像分类器性能低下的主要原因。不想大多数采用的基于最近邻的图像分类器那样，Berg等人在参考文献30提出的基于最近邻的分类器却是没有经过描述符量化，而是用原来的非量化图像描述符（几何模糊）。虽然如此，但是与他们的K-最近邻支持向量机的方法相比，他们的基于最近邻的图像分类器的性能仍然很低。我们认为，这种差距的主要原因是使用“图像到图像”的距离，如下面的解释。

2.2. 图片到图片与图片到类距离比较

在这一章中，我们会讨论作为核函数方法（如支持向量机、相关向量机等）重要基础的“图像到图像”距离，在标记图像（训练图像）数量较小的情况下，会严重地限制了非参数图像分类器的泛化能力。

当查询图像和在它类别中的其中一个标记图像非常相似的时候，基于最近邻的图像分类器就会提供准确的图像分类。事实上，在受限图像分类器邻域中基于最近邻的图像分类器被认为是很有竞争力的（如光学字符识别和纹理分类），它们的数据库中标记图像的数目与类别的复杂性相关度很高。从理论的角度上讲，当样本的数量趋近于无穷大时，基于最近邻分类的就趋近于贝叶斯最佳分类器。

但是基于最近邻的图像分类器不能概括很多超出标记图像集的。在很多实际情况下，样本的数量（用来训练的标记图像的数量）相对于类的复杂程度（比如说每类中10到30）是要很小的。当用于类的标记图像数目很少，但是物体的形状和外表变化很大（如图3中的芭蕾舞演员），就会得到比较差的分类情况。

当图像用特征包直方图来表示的时候，图到图的距离就会成为两幅图像之间描述符分布的距离（这可以通过直方图交集、卡方分布或KL散度来测量）。“图像到图像”的KL距离（散度）包含了测量每一个描述符d∈I₁的平均对数似然，在I₂中给定的描述符分布。因此，基于最近邻的图像分类器分别利用了每一张单独的图片I∈C的描述符分布。相反的，如果我们使用整个C类（用所有属于C类的图片）的描述符分布，我们就会得到比单独采用“图片到图片”的测量更好地泛化能力。这样一个直接的“图片到类”的距离可以通过计算Q的描述符分布和C的描述符分布之间的KL距离来得到。像图片3中显示的那样，尽管查询到图像的KL距离对于所有在芭蕾舞类别中标记过的图像来说比较大，但是查询到图像的KL距离仍然很小，使得分类正确。从一系列其他图像中得到的组成件推测得到新的图像配置在以前就被证明是有效的。可参考文献17和4。

图3：“图到图”的距离与“图到类”的距离比较

一个有大的可变性和小的数量（3）的标记图像的芭蕾照片类。即使查询到图像的距离对于每一个单独的有标记的图片是非常大的，但是查询到图的距离是很小的。右上方图片：对于每一个在Q的任一点的任意描述符，我们用颜色标记了图像，则给它了最高的描述符相似性。显而易见的是，新的查询配置相比于单独给出一张独立的图像更可能给出三个图像。（图片来自于参考文献4）

我们在第三章中证明了在朴素贝叶斯假设下，在图像分类中应用的最佳距离是KL“图片到类”的距离，而不是常用的“图片到图片”分布距离（如KL，x2等）。

3.概率公式

在这一节中我们得到最优贝叶斯图像分类器，并用NBNN来近似（第四章）。给出一个新的查询（测试）图像Q，我们希望找到它的类C。众所周知最大后验概率分类器可以将平均分类误差最小化：

当先验类p(C)均匀的时候，最大后验概率分类器会简化成最大似然分类器：

令d₁,d₂,d₃,…,d_n表示查询图像Q中所有的描述符。我们假设最简单的（生成）概率模型是朴素贝叶斯假设（Q中的描述符d₁,d₂,d₃,…,d_n是独立同分布的C类），即：

用最大似然判决规则的对数概率我们得到：

在公式（1）中所隐含的简单分类器是在朴素贝叶斯假设下的最优分类算法。在第四章我们会证明这个简单的分类器怎样可以通过用一个非参数的基于最近邻的算法来精确近似（无描述符量化）。

朴素贝叶斯分类器最小“图片到类”KL距离：在第2.2节我们讨论了量化对于使用“图像到类”距离的好处。我们接下去证明以上公式（1）中的最大后验概率分类器和最小“图片到类”KL距离相等。

公式（1）可以被重写为：

这里我们累加所有可能的描述符d。我们能够在上述等式的右边减去一个独立于C的常数项，而不影响。通过减去我们得到：

其中KL(.||.)表示两个概率分布之间的KL距离（散度）。换言之，在朴素贝叶斯假设下，最佳最大后验概率分类器把在查询图像Q的描述符分布和类别C的描述符分布之间的“查询到类”KL距离最小化。朴素贝叶斯分类和KL距离之间的相似关系在参考文献28中被用来纹理分类。也在其它对图像之间（如“图像到图像”距离，不是“图像到类”距离）。用来分类目的的描述符分布之间的距离也已经得到应用，如参考文献6,16,20,27,30，但是也是图片对之间的。

4.基于最近邻的近似算法

在这一节中我们提出了朴素贝叶斯近邻（NBNN）分类器，这精确地近似了第三章中提到的最佳最大后验概率朴素贝叶斯图像分类器。

非参数描述符密度估计：

公式（1）中的最佳最大后验概率朴素贝叶斯图像分类器需要计算描述符d在类C中的概率密度p(d|C)。因为在图像数据库中的局部描述符的数量是巨大的（在数据库中的像素数的顺序上）, Parzen密度估计提供了一个准确的非参数近似的描述符的连续概率密度P(d|C)。令d₁^C,d₂^C,…,d_L^C表示所有的从类C中所有图片中得到的描述符。然后Parzen似然估计为：

其中K(.)是Parzen核函数（非负并集成到1，典型的高斯：

）。当L接近无限大，（K(.)的宽度）就

会相应地减小，就会收敛到真密度p(d|C)。

原则上为了获得高精度，所有数据库描述符应用于方程（3）中的密度估计。虽然可行，但是计算比较耗时（因为它对于在各个类别中的每个描述符d_j^C(j=1…L)都需要计算距离(d-d_j^C)）。接下来我们展示高效和准确的Parzen估计的最近邻近似。

朴素贝叶斯最近邻算法：

由于描述符分布的长尾特性，几乎所有的描述符在描述符空间中都是相当孤立的，因此与数据库中的大多数描述符都非常远。因此，公式（3）中的累加和中的所有项，除了一小部分，都可以忽略不计（K随着随机增加而指数减小）。因此我们可以用和中r个最大的项来准确近似公式（3）中的累加和。这r个最大的元素对应于一个描述符d∈Q的r个最近邻，d在类C的描述符d₁^C,d₂^C,…,d_L^C∈C中：

注意到公式（4）的近似总是束缚在公式（3）完整的Parzen窗估计下。

图4表明了分布中这样的最近邻近似的准确度p(d|C)。即使在使用非常少的最近邻（和r=1，一个简单的每个类C中的每个d的最近邻描述符一样小），一个完整的Parzen窗估计得到的非常精准的近似（见图4a）。

此外，最近邻描述符的近似很难降低描述符的辨别力。（见图4b）与此形成对比的是，由于描述符量化而导致描述符的辨别力急剧下降。

我们确实在实际分类结果中发现很小的差别，当从1变化到1000的

最近邻。r=1的情况使用起来很方便，因为log p(d|C)遵守一个非常简单的形式：并且不再依赖于高斯核K的方差。

这种简单形式的分类器在第五章的所有实验结果中都得到应用。

图4：最近邻描述符估计保留描述符的密度分布和区别度

(a)一个1-NN概率密度分布散点图pNN(d|C)与真实分布p(d|C)做比较。亮度对应于散点图中的点的浓度。这图表明1-NN分布为真实分布提供了一个非常准确的近似。(b)20-NN描述符近似（绿线）和1-NN描述符近似（蓝线）保持了相当好的描述符的区分度。相反，描述符量化（红线）严重降低描述符的区分度。所有轴都是对数刻度。

由此产生的朴素贝叶斯近邻图像分类器(NBNN)可以概括如下：

尽管它的简单性，该算法准确接近理论上最优的朴素贝叶斯分类器，而且它不需要学习/培训却是有效的。

结合几种类型的描述符：最近的图像分类的方法，如参考文献（5，6，20，27）已经表明，在一个单一的分类器中结合几种类型的描述符可以显着提高分类性能。在我们的例子中，当多个（t）描述符类型被使用，我们用t描述符来代表在每个图像中的每个点。对所有类型的所有描述符使用朴素贝叶斯假设就会产生一个非常简单的NBNN扩展算法。这个决策规则把每一个t描述符种类的贡献都进行了线性组合。即上述单描述符类型NBNN的步骤3可以被取代为：

其中d_i^j是类型j的第i个查询描述符，w_j由Parzen高斯核方差K_j确定对应描述符类型j。不像参考文献(5,6,20,27)，每一个类别中的每一个描述符类型的权重w_j都需要得到，我们的权重w_j是固定的，并且由所有类共享。

计算复杂度和运行时长：我们使用有效的近似r最近邻算法和在文献23中KD树的实现。最近邻搜索的预计时间是存储在KD树的元素数量的对数。注意KD树的数据结构只用来提高最近邻搜索的效率。它不需要参数的学习。这个预处理步骤具有较低的复杂度（O(NlogN)在元素N的数目里），并且有一个较低的运行时间（比如为所有在101数据库中的类构建所有的KD树的所有秒数）。

令n_label是每个类别中标记（训练）图像的数量，n_C是类的数目，n_D是每张图像中描述符的数量。每一棵KD树都包含了n_label*n_D个描述符。n_D个查询描述符都在n_C棵KD数。因此，每一张查询图像的时间复杂性为：（因为通常情况下n_label<<n_D）。在我们的例子中不需要训练时间，除非用做KD树的初步处理。

举一个例子，在101数据库中用密集采样的SIFT描述符并且n_label=30来图像分类，用NBNN方法的运行时间是每个类别需要1.6秒。

5.结果与实验

在这一节中我们尝试NBNN，和其性能比其它分类器（基于学习和神经网络）。实施的具体细则在5.1节中提供，5.2节提供了在数据库101，256，01中的性能比较。这表明了尽管我们的NBNN分类器是很简单的，并且不需要什么学习训练过程，但是它的性能却是可以排在基于学习的分类器之前的。第5.3节进一步实验了当使用描述符量化或“图像到图像”的距离对于在非参数分类器的性能影响。

5.1．实施

我们用一个简单的描述符类型SIFT来测试我们的NBNN算法，也用了用五种描述符类型结合起来来测试。

1.SIFT描述符；

2+3.简单亮度和颜色描述符：我们使用原始图像修补程序的对数极采样，并且取亮度部分（一个CIELAB颜色空间的L*）作为亮度描述符，颜色部分（a*b*）作为颜色描述符。两个都归一化为单位长度。

4.形状描述符：我们扩展了Shape-Context描述符，以在它的对数极簇中包含边缘方向直方图。此描述符被应用到纹理不变的边缘图，并且被归一化为单位长度。

5.参考文献25的自相似描述符。

描述符是由每个图像中密集计算得到，在五个不同的空间尺度上，并且可以保持尺度不变性。为了进一步利用其空间位置（与参考文献30，16类似），我们描述了在图片中每一个描述符d的位置l：描述符之间的L2距离为

结合描述符距离和位置距离。（在我们实验中α的值需要自己设置。α值是固定的，可以在Caltech-101和Caltech-256中使用，Graz-01数据库中α值为0.）

5.2．实验

在共同的基准测试程序，我们将每个类分离到随机选择的没有交集的“训练图像”和“测试图像”。在我们的NBNN算法中，因为没有训练过程，所以我们用标记图像代替训练图像。在基于学习的方法中，训练图像被馈送入一个学习过程用来产生一个用来测试分类器。在我们的情况下，没有这样的学习阶段和分类器对于所有图像集来说是固定的。

我们用n_label来表示每一类别中标记图像的数目。我们使用常用的标记图像和测试图像的数目：在Caltech-101数据库中我们在每个类中随机选择了n_label=1,5,15，30的图片数量并在每类中测试20张图片。在Caltech-256数据库中我们在每个类中随机选择了n_label=1,5,10，20，30的图片数量并在每类中测试25张图片。整个步骤经过几次重复（随机挑选标记和测试图像），每一次计算得到的时间性能作为每类中的平均识别率。对于graz-01数据库的基准程序是有所不同的，并将在后面介绍。

Caltech-101：这个数据库有101个类（动物、家具、车辆、花朵等），每个类别中的物体在外表和形状上都多种多样。在Caltech-101数据库中我们展现了三种类型的比较：（i）NBNN方法的性能与其他基于最近邻方法性能的比较（表格1）。（ii）比较单一描述符的NBNN方法和其他单一描述符的图像分类器（都是基于学习过程和基于最近邻的）（图5a）。(iii)比较用多种描述符种类的NBNN方法和其他多种描述符种类的图像分类器（基于学习方法）（图5b）。

表格1展示了用Calthch-101数据库的几种基于最近邻的方法的性能比较。在这次试验中，为了别的论文中报道的数量相比较，我们使用了15张标记图像。我们用单一类型描述符的NBNN算法（用SIFT）胜过其他基于最近邻的图像分类器一大截。此外，它还胜过了SVM-KNN(一种基于最近邻和基于SVM的杂交方法，被认为是迄今为止最先进的方法)。

表1：在Caltech-101数据集上进行非参数的基于最近邻的几种方法的

性能比较（nlabel=15）。上表中所有列出的方法都不需要学习过程。

我们的多特征NBNN算法表现得甚至更好（15张测试图像中的正确率是72.8%），“GB投票NN”（参考文献3）用了一个图像到类的基于最近邻的投票组合方法（没有进行描述符量化），但是每一个描述符只能投票给一个最近的类，因此性能低下。

图5a进一步表明了对于一个单一种类的描述符而言，我们的NBNN算法胜于所有已提出的基于学习过程的方法。注意结果是通过“GB SVM”得到的（Varma等人的参考文献27用了一个单一的几何模糊核函数来进行SVM方法），得到的结果近似于（稍微差于）我们的单一描述符的NBNN（但是好于其他方法）。我们认为这种方法性能优于其他方法的原因是它使用了非量化的GB描述符。值得注意的是，NBNN方法能够不通过学习过程而得到更好的性能，并且运行时间少很多。

图5b表明了当结合多种描述符类型时，NBNN性能可以与Bosch树（ROI）方法相比，但是比先前提出的所有基于学习过程的方法的性能都要好，除了Varma。需要注意的是，不像其他方法那样，我们不需要得到描述符类型的类内自适应的结合。

图5：基于Caltech-101数据库的性能比较

（a）单个描述符类型的方法：（b）多个描述符类型的方法

Caltech-256：这个数据库包含256个种类的图片，而且类内图片的可变性比Caltech-101要高，以及在图片中物体位置也更为多变。NBNN与其他方法的比较结果在图6中显示了。Caltech-256中图片位置变化的多样性也在也可以由参考文献5中的ROI（感兴趣区域）优化方法有效地得到解决。这导致了对于小数目的训练图像而言相对于NBNN方法而言ROI方法有更好的性能。但是因为NBNN方法的泛化能力（由于用图像到类距离导致，见2.2节），这个差距在训练的图片数量到达39的时候会变小。

图6：基于Caltech-256数据库的性能比较

Graz-01：这个数据库包含两类图片（自行车和人），还有一个背景类。它以类内图片的大小、3D方向和物体在图片中的位置变化之大著称。另外，这里的背景的混乱程度远大于Caltech数据库。在Graz-101中的分类任务是类别与没有类别作比较。我们根据参考文献16/24/31中的实验步骤：对于每一个物体（人/自行车）我们都随机取样100个负例子（其中50张图是从背景类中取得的）和100个正例子。测试集分布比较类似。表2表明了ROC平等的错误率平均超过5次。我们把NBNN的性能与参考文献16、24、31相比。尽管NBNN是个非参数（无需学习）的方法，但是它的性能要好于基于学习的分类器，如基于SVM的分类器和基于Boosting的分类器。NBNN只比参考文献31的基于SVM的分类器性能稍微差一点。

表2：Graz数据库的结果

表3：把描述符量化或图像到图像距离用于NBNN方法所带来

的影响。（用SIFT描述符，在Caltech-101数据库上测试，n_label=30）

5.3．量化和图像到图像距离的影响

在第二章中我们已经说明了描述符量化和采用“图像到图像”距离会降低非参数图像分类器的性能。表3体现了把二者中任一个用于NBNN方法的结果（在Caltech-101数据库上测试，nlabel=30）。单描述符的NBNN的基本性能（用SIFT描述符）是70.4%。如果我们用图像到图像的KL距离取代图像到类的KL距离，NBNN的性能就会降低为58.4%（性能降低17）。为了检查量化的影响，把SIFT描述符量化到一本1000字的码书。这使得NBNN的性能降低为50.4%（性能降低了28.4%）。

参考文献16的空间椎体匹配核函数测试了归一化SIFT描述符直方图之间的距离，但是是在一个SVM分类器里。它们的SVM学习阶段弥补了由于量化导致的一些信息的损失，使分类器的性能提升到64.6%。但是，相比于NBNN的基本性能（70.4%），得到描述符量化导致的信息缺失要比用SVM方法得到的信息要多。

感谢：

作者感谢Lena Gorelick，因为她的许多明智和有价值的评论。这个工作得到了以色列科学基金和以色列科学部的资金支持。

0 0