词袋模型和空间金字塔模型

来源：互联网发布：淘宝免费模块代码编辑：程序博客网时间：2024/04/30 10:23

1 词袋模型

李菲菲认为图像可以类比文档，图像的子块或特征点可以看作是单词，则可以统计图像中所有特征的直方图表示图像，即得到图像的BoW(bag of words)模型。图1是BoW模型的示例图，对于已经获得的视觉码本，统计新的图像在各个子块上的直方图，例如人像中直方图最大的是人眼和皮肤，自行车中直方图突出的是车座。通过直方图的映射，可以简单有效的获得图像的特征描述。

bow模型的构建主要包括：特征提取、生成码本、统计直方图三个步骤，算法流程如图2所示。

（1）特征提取：对训练集中的每一张图片提取特征，常见如SIFT特征，获得M张图片共计N个特征向量。

（2）生成码本：对训练集中获得的特征进行聚类，如使用K-means算法将训练特征集合聚成K个簇，每一个簇代表一类相似的特征（即一个视觉单词），构造K个视觉词典的码本。对于字典的详细描述，可见我的另一篇博客：稀疏编码及字典学习。

（3）统计直方图：根据聚类获得的视觉码本（字典），对于每一幅图像（训练集或测试集），统计其特征点在码本上的直方图分布，获得图像的视觉描述，作为图像最终的特征表示。

关于词袋模型的详细解释以及磁带模型和支持向量机相结合用于图像分类，可见http://blog.csdn.net/loadstar_kun/article/details/39450137

2 空间金字塔模型

bow模型在统计特征直方图分布时，未考虑特征在原始图像中的空间位置信息。空间金字塔模型（Spatial Pyramid Matching, SPM）对图像进行不同粒度的切分，构造多个不同尺度的子块（关于尺度的介绍，可以查询小波分析），然后同样按照BOW模型分别统计子块中的特征表达（直方图），最后拼接所有子块中的特征作为图像的特征描述。SPM模型流程如图3所示。

经过类似BOW模型的方法获得图像的视觉码本后，为了构建空间金字塔，SPM将图像划分为0,1,...,L-1个尺度空间，在尺度下，属于0到L-1，将图像划分为的图像子块，依次统计尺度下各个子块中包含的特征点在码本中的直方图表示：

式中，表示在尺度下的第i个子块中的特征码本直方图表示。对不同尺度下的特征进行加权，最后合并不同尺度下的多个直方图表示得到图像的最终特征表达f。SPM特征映射示意图如图4所示。

0 0