Bow词袋

来源：互联网发布：oracle数据库培训编辑：程序博客网时间：2024/05/21 18:32

因为SPP-Net这篇论文中提到了Bow模型，因此有必要了解一下。

BOW即Bag of words，词袋模型。广泛应用于自然语言处理和信息检索领域（NLP+ Information retrieval）。也可以用到计算机视觉中。

其主要思想是要构成一个词袋，然后用词袋中的元素来对一个实例进行编码，构成一个特征向量。

举例：在信息检索中，Bag of words model假定对于一个文本，忽略其词序和语法，句法，将其仅仅看做是一个词集合，或者说是词的一个组合。

。例如有如下两个文档：

1：Bob likes to play basketball, Jim likes too.

2：Bob also likes to play football games.

基于这两个文本文档，构造一个词典：

Dictionary = {1:”Bob”, 2. “like”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”, 8. “games”, 9. “Jim”, 10. “too”}。

这个词典一共包含10个不同的单词，利用词典的索引号，上面两个文档每一个都可以用一个10维向量表示（用整数数字0~n（n为正整数）表示某个单词在文档中出现的次数）：

1：[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

2：[1, 1, 1, 1 ,0, 1, 1, 1, 0, 0]

向量中每个元素表示词典中相关元素在文档中出现的次数(下文中，将用单词的直方图表示)。不过，在构造文档向量的过程中可以看到，我们并没有表达单词在原来句子中出现的次序（这是本Bag-of-words模型的缺点之一，不过瑕不掩瑜甚至在此处无关紧要）。

由于图像中的词汇不像文本文档中的那样是现成的，我们需要首先从图像中提取出相互独立的视觉词汇，这通常需要经过三个步骤：

（1）特征提取（比如SIFT特征）

（2）单词本的生成（比如K-means聚类算法）

（3）特征表示

图2 从图像中提取出相互独立的视觉

通过观察会发现，同一类目标的不同实例之间虽然存在差异，但我们仍然可以找到它们之间的一些共同的地方，比如说人脸，虽然说不同人的脸差别比较大，但眼睛，嘴，鼻子等一些比较细小的部位，却观察不到太大差别，我们可以把这些不同实例之间共同的部位提取出来，作为识别这一类目标的视觉词汇。

而SIFT算法是提取图像中局部不变特征的应用最广泛的算法，因此我们可以用SIFT算法从图像中提取不变特征点，作为视觉词汇，并构造单词表，用单词表中的单词表示一幅图像。

接下来，我们通过上述图像展示如何通过Bag-of-words模型，将图像表示成数值向量。现在有三个目标类，分别是人脸、自行车和吉他。

第一步：利用SIFT算法，从每类图像中提取视觉词汇，将所有的视觉词汇集合在一起，如下图3所示：

图3 从每类图像中提取视觉词汇

第二步：利用K-Means算法构成单词。假设K=4

第三步：利用单词表中的词汇表示图像。利用SIFT算法，可以从每幅图像中提取很多个特征点，这些特征点都可以用单词表中的单词近似代替，通过统计单词表中每个单词在图像中出现的次数，可以将图像表示成为一个K=4维数值向量。

图5 每幅图像的直方图表示

上图5中，我们从人脸、自行车和吉他三个目标类图像中提取出的不同视觉词汇，而构造的词汇表中，会把词义相近的视觉词汇合并为同一类，经过合并，词汇表中只包含了四个视觉单词，分别按索引值标记为1，2，3，4。通过观察可以看到，它们分别属于自行车、人脸、吉他、人脸类。统计这些词汇在不同目标类中出现的次数可以得到每幅图像的直方图表示（我们假定存在误差，实际情况亦不外如此）：

人脸： [3,30,3,20]
自行车：[20,3,3,2]
吉他： [8,12,32,7]

其实这个过程非常简单，就是针对人脸、自行车和吉他这三个文档，抽取出相似的部分（或者词义相近的视觉词汇合并为同一类），构造一个词典，词典中包含4个视觉单词，即Dictionary = {1:”自行车”, 2. “人脸”, 3. “吉他”, 4. “人脸类”}，最终人脸、自行车和吉他这三个文档皆可以用一个4维向量表示，最后根据三个文档相应部分出现的次数画成了上面对应的直方图。

需要说明的是，以上过程只是针对三个目标类非常简单的一个示例，实际应用中，为了达到较好的效果，单词表中的词汇数量K往往非常庞大，并且目标类数目越多，对应的K值也越大，一般情况下，K的取值在几百到上千，在这里取K＝4仅仅是为了方便说明。

下面，我们再来总结一下如何利用Bag-of-words模型将一幅图像表示成为数值向量：

第一步：利用SIFT算法从不同类别的图像中提取视觉词汇向量，这些向量代表的是图像中局部不变的特征点；
第二步：将所有特征点向量集合到一块，利用K-Means算法合并词义相近的视觉词汇，构造一个包含K个词汇的单词表；
第三步：统计单词表中每个单词在图像中出现的次数，从而将图像表示成为一个K维数值向量。

转载自： http://blog.csdn.net/tiandijun/article/details/51143765

图2 从图像中提取出相互独立的视觉词汇

图5 每幅图像的直方图表示

人脸： [3,30,3,20]
自行车：[20,3,3,2]
吉他： [8,12,32,7]

下面，我们再来总结一下如何利用Bag-of-words模型将一幅图像表示成为数值向量：

第一步：利用SIFT算法从不同类别的图像中提取视觉词汇向量，这些向量代表的是图像中局部不变的特征点；
第二步：将所有特征点向量集合到一块，利用K-Means算法合并词义相近的视觉词汇，构造一个包含K个词汇的单词表；
第三步：统计单词表中每个单词在图像中出现的次数，从而将图像表示成为一个K维数值向量。

阅读全文

0 0