关于2009_CVPR_Linear spatial pyramid matching using sparse coding for image classification

来源：互联网发布：seo白帽优化编辑：程序博客网时间：2024/06/05 03:06

对于这篇文献一直纠结于nonlinear SVM和linear SVM。通过查阅文献及各牛人的博客，终于有一点明白这篇文献是怎么回事了。这篇文献主要是改进之前06年那篇。

首先说一下06年那篇，这篇文献采用dense sift特征和SPM进行图像分类，sift特征提取就不说了，简单说一下SPM。SPM全拼为spatial pyramid matching，即空间金字塔匹配，包括三个方面，一是对sift特征encode，编码方法为VQ；二是对VQ之后的特征向量进行pooling，这篇采用histogram 统计方法；三是用SVM分类时，采用histogram intersection核，很明显这是一种nonlinear kernel，所以是nonlinear SVM。

再来说一下09年这篇文献，这篇文献提出由于nonlinear SVM计算复杂度过高，所以进行改进，改进也是主要针对以上三个方面，一是对sift特征的编码方法，这篇采用SC,文中说有三个优点，此处暂略；二是pooling采用max pooling，当然pooling也用了pyramid；三是SVM采用linear kernel，即k(Zi，Zj)=ZiTZj ，这样样本训练复杂度就降低了。

疑问一：既然linear kernel很好用，为什么不直接在VQ的基础上进行，毕竟SC计算量也很大，要迭代什么的

答：在histogram上用linear kernel效果很差，因为VQ的量化误差太大

疑问二：author 提出这种改进算法的出发点是什么，他怎么知道这样做效果会好呢，自己用他的代码试了一下，accuracy确实比较高，虽然说后面分类的时候complexity有所降低，但是前面SC也很耗时的说。

答：自己也不清楚，有机会请教author

纯属自己理解，望高手赐教。。