Linear Spatial Pyramid Matching using Sparse Coding for Image Classification (阅读)

来源：互联网发布：java疯狂讲义第三版编辑：程序博客网时间：2024/06/04 18:29

论文和源码地址：http://www.ifp.illinois.edu/~jyang29/ScSPM.htm

先看下这个主页中的SPM和ScSPM的对比：

SPM的方法

ØStep 1: local descriptor extraction

ØStep 2:vector quantization (e.g.k-means)

ØStep 3:hierarchical average pooling

ØStep 4:nonlinear SVM

ScSPM的方法

ØStep 1: local descriptor extraction

ØStep 2:sparse coding (无监督词典)

ØStep 3:hierarchical max pooling(提取最大的稀疏系数)

ØStep 4:linear SVM

=====================================================================

首选是决策函数：

z是基于描述符编码的某种统计数据得到的特征向量。然后通过下面的z的求解需要用到聚类标识符U=[u1,…,uM]T，通过pooling function z=F(U)得到。

下面就是SC取代了VQ对SIFT特征进行编码的公式：

（采用的是固定V，优化u）而这样做的好处：1，SC约束宽松一些，因而有更低的重建误差；2，稀疏性可捕捉更显著的特征；3，图像块是稀疏信号

接下来就是用maxpooling function取代averaging function

文中说max这样做视觉特征好，并通过连结图像不同位置与不同分辨率的空间塔式表示得到特征向量z。

然后这张Ii的图像用Zi表示，看一下SPM kernel函数：

代入到决策函数中得到：

====================================================================

论文提到成功的3个点：

1、SC比VQ的quantization errors小；

2、sparse coding适合图像数据；

3、max pooling在局部信息方面的强大；

所以说成功还是取决于SC和Max部分，也就是这篇论文重点。

====================================================================

0 0