Bag of words and Bag of features

来源:互联网 发布:.com域名注册 编辑:程序博客网 时间:2024/05/17 03:49


关于BOW没什么好点资源,百度到的都是一些不详细的。

碰巧看到了一个公开课,http://crcv.ucf.edu/courses/CAP5415/Fall2012/index.php里面有视频和PDF

可能需要翻墙才能看到视频和pdf,这里我就把原资源截下来放里面了。版权归原作者所有。

=====================================================================

BOW的原理其实很简单,创建一个词典,然后生成一个向量,然后统计词的频率。我觉得看图片比语言描述更能具有视觉说服力。

看一个文本方面的描述:

=====================================================================

BOF的原理:

构建BOF步骤:
1. 假设训练集有M幅图像,对训练图象集进行预处理。包括图像增强,分割,图像统一格式,统一规格等等。

2、提取SIFT特征。对每一幅图像提取SIFT特征(每一幅图像提取多少个SIFT特征不定)。每一个SIFT特征用一个128维的描述子矢量表示,假设M幅图像共提取出N个SIFT特征。

3. 用K-means对2中提取的N个SIFT特征进行聚类,K-Means算法是一种基于样本间相似性度量的间接聚类方法,此算法以K为参数,把N个对象分为K个簇,以使簇内具有较高的相似度,而簇间相似度较低。聚类中心有k个(在BOW模型中聚类中心我们称它们为视觉词),码本的长度也就为k,计算每一幅图像的每一个SIFT特征到这k个视觉词的距离,并将其映射到距离最近的视觉词中(即将该视觉词的对应词频+1)。完成这一步后,每一幅图像就变成了一个与视觉词序列相对应的词频矢量。
设视觉词序列为{眼睛 鼻子 嘴}(k=3),则训练集中的图像变为:
第一幅图像:[1 0 0]
第二幅图像:[5 3 4]......
====================================================================

先看一个在识别方面的应用:

然后看一下这个在图片分类方面的应用:


====================================================================

看一个简单的图的流程:

k聚类前面有《FreeMind学习整理》介绍这里就不说。

看一个Bag of Visual Words model:

=====================================================================



2 0