Video Google: A Text Retrieval Approach to Object Matching in Videos

来源：互联网发布：品牌零食知乎编辑：程序博客网时间：2024/06/05 17:07

Josef Sivic and Andrew Zisserman，ICCV2003，被引用次数：3836
阅读时间：2015-04-04~05

文章的效果可以在这里看到。传说Video Google这个产品Google早在2009年就不做了，开始将精力投入到youtube中，因此现在也不能再去体验Video Google这个功能了。
文章主要研究的内容是如何将文本检索的一些方法移植到视频搜索中。文中先回顾了文本检索方法：

上述步骤可以将词和文档组织成inverted file，能进行高效的检索。
该思路借鉴到视频检索中，概念上的类比见下图，来源：
The Visual Analogy

一、场景匹配

文章先对场景匹配进行了讨论，主要流程为：

文中对比了两种特征，最终发现两种特征合并效果最好。文中有去噪操作，使用Constant Velocity Dynamical model跟踪连续帧的特征区域，三帧内消失的region将被rejected，最终特征值为三帧均值，如果方差矩阵很大会rejected。

k-means聚类，文中提到两部视频48个镜头大约10k帧的图像进行visual words提取，大约200k关键点，聚类形成6k个kernel关键点，10k个kernel MSER。

TF-IDF加权，ti=nidndlogNni，V=(t1,t2,...,tk)T，实质上因为稀少的词更具判别性，所以可以提升稀少词的权重。

作者在这部分主要想说明两种特征的性能和TF-IDF加权的优势。文中从48个镜头中截出164张图，19个不同位置，每个位置大约4-9张图，组成一个测试集。采用如下公式度量：

R a n k ˜ = 1 N N r e l ⎛ ⎝ \sum i = 1 N r e l R i - N r e l ( N r e l + 1 ) 2 ⎞ ⎠

其中

N为database中的图片数，

Nrel指database中与query image相关的图片总数（标注的），

∑i=1NrelRi为检索结果中的相关图片的排序之和，其中

Nrel(Nrel+1)2=∑i=1Nreli，估当database中所有相关图片都被match到top时，

Rank˜=0，此时match结果越好。

最后，文章强调该测试集还可以分析：k-means中kernel数量，stable features的跟踪长度，unstable descriptors rejected协方差矩阵。

目的是从整个视频中搜索目标，该目标可以是用户从任何一帧中选定的子区域，主要流程为：

绘制词数-词频图，收集词频top 5%和bottom 10%的词，组织成Stop list。

针对匹配点/区域，检查附近是否有15个已匹配的点/区域，少于则rejected。实质上是强调了特征之间的相对位置。

所有visual word作为key，存储了所有连接的frame，利用inverted file将使得检索非常快速。

0 0