Bag-of-words model in computer vision

来源：互联网发布：网络电视视频播放器编辑：程序博客网时间：2024/05/16 19:29

一、Bag-of-words model

Bag-of-words model是用于自然语言处理和信息检索中的一种简单的文档表示方法。通过这一模型，一篇文档可以通过统计所有word的数目来表示，这种方法不考虑语法和word出现的先后顺序。这一模型在文档分类里广为应用，通过统计each word的frequency来作为分类器的特征。

通过下面的例子来说明用这一model来表示文档的基本方法：

如下两篇简单的文本文档：

基于这两篇文档构建一个Dictionary如下：

易见这个字典由10个distinct word构成，将其作为indexes，我们可将两篇文档表示为如下的10-entry vector：

通俗的讲：

Bag-of-words model实际就是把文档表示成向量,其中vector的维数就是字典所含词的个数，在上例中，vector中的第i个元素就是统计该文档中对应dictionry中的第i个单词出现的个数，因此可认为BoW model就是统计词频直方图的简单文档表示方法。

二、Bag-of-words model in computer vision

2003年以来在computer vision领域里，许多人将BoW model类比的应用到了计算机视觉领域中，例如：图像分类、图像检索。首先，需要明确的文档中的单词类比到图像中的单词是图像的feature，常用到的是局部特征SIFT（1999年提出，2004年完善）。如在第一部分所诉，我们便可将一幅图表示成基于图像feature的统计直方图。

具体步骤如下：

（1）利用SIFT算法从图像集的所用图像中提取sift特征形成视觉词汇向量（在这里SIFT128维的向量）。

假如有自行车、人脸、吉他，我们提取词汇如下：