Bag-of-words model in computer vision

来源:互联网 发布:网络电视视频播放器 编辑:程序博客网 时间:2024/05/16 19:29

一、Bag-of-words model

Bag-of-words model是用于自然语言处理和信息检索中的一种简单的文档表示方法。通过这一模型,一篇文档可以通过统计所有word的数目来表示,这种方法不考虑语法和word出现的先后顺序。这一模型在文档分类里广为应用,通过统计each word的frequency来作为分类器的特征。

通过下面的例子来说明用这一model来表示文档的基本方法:

如下两篇简单的文本文档:

基于这两篇文档构建一个Dictionary如下:

易见这个字典由10个distinct word构成,将其作为indexes,我们可将两篇文档表示为如下的10-entry vector:

 

通俗的讲:

Bag-of-words model实际就是把文档表示成向量,其中vector的维数就是字典所含词的个数,在上例中,vector中的第i个元素就是统计该文档中对应dictionry中的第i个单词出现的个数,因此可认为BoW model就是统计词频直方图的简单文档表示方法。

二、Bag-of-words model in computer vision

2003年以来在computer vision领域里,许多人将BoW model类比的应用到了计算机视觉领域中,例如:图像分类、图像检索。首先,需要明确的文档中的单词类比到图像中的单词是图像的feature,常用到的是局部特征SIFT(1999年提出,2004年完善)。如在第一部分所诉,我们便可将一幅图表示成基于图像feature的统计直方图。

具体步骤如下:

(1)利用SIFT算法从图像集的所用图像中提取sift特征形成视觉词汇向量(在这里SIFT128维的向量)。

假如有自行车、人脸、吉他,我们提取词汇如下:

(2)利用聚类方法(如k-means)对上一步提取的SIFT特征即视觉词汇进行聚类,得到K个聚类中心,利用这些聚类中心构建词典(码本)。

假设对上面自行车、人脸、吉他得到的视觉词汇进行K-means聚类(如k=4),形成码本的过程如下:

(3)在每一幅图片中统计dictionry的每个单词对应SIFT特征的数量,这样一幅图就可用K-entry vector或者说是统计直方图的形式表示出来。

对于我们的例子,我们将图像用统计histgram的形式可表示如下:

综上:

我们把图像用BoW model表示成了一个vector,这样我们便可以利用其代表图像进行检索、分类等操作。

我们可以通过下图更加整体的理解用词袋模型表示一幅图的方法:

参考:

(1)http://blog.csdn.net/v_july_v/article/details/6555899

(2)http://www.cnblogs.com/platero/archive/2012/12/03/2800251.html

(3)http://en.wikipedia.org/w/index.php?title=Bag-of-words_model_in_computer_vision&oldid=517192612

(4)http://en.wikipedia.org/w/index.php?title=Bag-of-words_model&oldid=525730564

(5)Evaluating Bag-of-Visual-Words Representations in Scene Classification(文献)

原创粉丝点击