Bag of words and Bag of features

来源：互联网发布：.com域名注册编辑：程序博客网时间：2024/05/17 03:49

关于BOW没什么好点资源，百度到的都是一些不详细的。

碰巧看到了一个公开课，http://crcv.ucf.edu/courses/CAP5415/Fall2012/index.php里面有视频和PDF

可能需要翻墙才能看到视频和pdf，这里我就把原资源截下来放里面了。版权归原作者所有。

=====================================================================

BOW的原理其实很简单，创建一个词典，然后生成一个向量，然后统计词的频率。我觉得看图片比语言描述更能具有视觉说服力。

看一个文本方面的描述：

=====================================================================

BOF的原理：

构建BOF步骤：
1. 假设训练集有M幅图像，对训练图象集进行预处理。包括图像增强，分割，图像统一格式，统一规格等等。

2、提取SIFT特征。对每一幅图像提取SIFT特征（每一幅图像提取多少个SIFT特征不定）。每一个SIFT特征用一个128维的描述子矢量表示，假设M幅图像共提取出N个SIFT特征。

3. 用K-means对2中提取的N个SIFT特征进行聚类，K-Means算法是一种基于样本间相似性度量的间接聚类方法，此算法以K为参数，把N个对象分为K个簇，以使簇内具有较高的相似度，而簇间相似度较低。聚类中心有k个（在BOW模型中聚类中心我们称它们为视觉词），码本的长度也就为k，计算每一幅图像的每一个SIFT特征到这k个视觉词的距离，并将其映射到距离最近的视觉词中（即将该视觉词的对应词频+1）。完成这一步后，每一幅图像就变成了一个与视觉词序列相对应的词频矢量。
设视觉词序列为{眼睛鼻子嘴}（k=3），则训练集中的图像变为：
第一幅图像：[1 0 0]
第二幅图像：[5 3 4]......
====================================================================

先看一个在识别方面的应用：