SparseCoding(2)_空间金字塔匹配（Spatial Pyramid Matching, SPM）

来源：互联网发布：sql server个人版安装编辑：程序博客网时间：2024/06/05 06:33

Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories, 2006, CVPR

主要是对论文的翻译和总结。
这篇论文是对上一博文中的文论的further work：

http://blog.csdn.net/rainbow0210/article/details/54802062

Spatial Pyramid Matching

Pyramid Match Kernels

这部分已在前面的博文中详细介绍，见前文链接。这里需要注意的是，pyramid match kernel可以写成如下的等价形式：

κ L (X, Y) = Θ L + Σ L - 1 l = 0 (Θ l - Θ l + 1) = 1 2 L Θ 0 + Σ L l = 1 1 2 L - l + 1 Θ l . . . (1)

Spatial Matching Scheme

根据前面的博文的介绍，pyramid match kernel可以进行图像的无序的特征表达。它允许两个集合在高维空间中的精确匹配，但是，它忽略了图像的空间信息的相关性。而本文的主要思想为：将图像分为若干个子块，分别统计每一个字块的特征，最后将所有块的特征拼接起来，形成完整的特征。

Feature Extraction

这里简要介绍后续实验中用到的两种特征。

第一种特征，是我们所谓的弱特征，例如，在给定方向的梯度大小大于某一个阈值的点所组成的特征。在实验中，我们采用了2尺度8方向的梯度特征，共16个channel。

第二种特征，拥有更良好的区分力，利用高维的强特征，例如，以8 pixel排列的16*16 pixel patch的SIFT特征。试验中采用dense SIFT特征替代基于interest points的SIFT特征。通过k均值算法将训练集中的patches聚类。试验中，聚类大小分别为200和400。

Experiments

实验针对三个数据库展开：fifteen scene categories, Caltech-101, Graz。本文中只介绍第一个实验。实验中，所有图像均为灰度图像（即便为彩色图像，也转化为灰度图像）。实验中，均随机抽取测试集与训练集，并反复重复十次，以十次的结果的均值和标准差作为最终的实验结果，分类器则采用SVM。

Scene Category Recognition

第一个数据集由15个不同的场景类别组成，如下图所示：

每个类别中，有200-400副图像，图像大小为300*250 pixel。下表展示了实验结果，其中，每类有100个样本用于训练，而其余样本则用于测试。

0 0