Video Google: A Text Retrieval Approach to Object Matching in Videos
来源:互联网 发布:品牌零食 知乎 编辑:程序博客网 时间:2024/06/05 17:07
Josef Sivic and Andrew Zisserman,ICCV2003,被引用次数:3836
阅读时间:2015-04-04~05
文章的效果可以在这里看到。传说Video Google这个产品Google早在2009年就不做了,开始将精力投入到youtube中,因此现在也不能再去体验Video Google这个功能了。
文章主要研究的内容是如何将文本检索的一些方法移植到视频搜索中。文中先回顾了文本检索方法:
- documents采用某种分词方法,分割成一个个word;
- 将词根一样的词合并,如walk、walking、walks合并成walk;
- 消除停用词(stop word),即那些特别常见的词,如an、the;
- 将留下的词组织成vocabulary;
- 每个文本表示成一个向量,每个维度上的值为该词在文件中出现的频率;
- 当然,各词的值会有加权,比如采用TF-IDF加权等;
- 在文本检索时,通过计算词频向量,返回向量最接近的文档。
上述步骤可以将词和文档组织成inverted file,能进行高效的检索。
该思路借鉴到视频检索中,概念上的类比见下图,来源:
一、场景匹配
文章先对场景匹配进行了讨论,主要流程为:
- 图像特征提取,SIFT和MSER,并对特征去噪;
- k-means聚类,度量方式为欧式距离,对k-means多次随机初始化,最终使用误差最小的结果;
- 图像向量化,利用TF-IDF加权量化;
- 检索阶段,用cos度量query vector和all document vectors;
视角不变性特征描述
- Shape Adapted,由椭圆中点、大小和形状决定,拉普拉斯局部极值点,这里应该是SIFT;
- Maximally Stable,MSER区域;
文中对比了两种特征,最终发现两种特征合并效果最好。文中有去噪操作,使用Constant Velocity Dynamical model跟踪连续帧的特征区域,三帧内消失的region将被rejected,最终特征值为三帧均值,如果方差矩阵很大会rejected。
构建视角词汇
k-means聚类,文中提到两部视频48个镜头大约10k帧的图像进行visual words提取,大约200k关键点,聚类形成6k个kernel关键点,10k个kernel MSER。
特征量化
TF-IDF加权,
评价场景匹配结果
作者在这部分主要想说明两种特征的性能和TF-IDF加权的优势。文中从48个镜头中截出164张图,19个不同位置,每个位置大约4-9张图,组成一个测试集。采用如下公式度量:
其中
最后,文章强调该测试集还可以分析:k-means中kernel数量,stable features的跟踪长度,unstable descriptors rejected协方差矩阵。
二、目标检索
目的是从整个视频中搜索目标,该目标可以是用户从任何一帧中选定的子区域,主要流程为:
- 在建vocabulary时生成stop list;
- 进行场景匹配,以上部分描述了;
- 进行关键点匹配和MSER匹配,对停用词进行抑制;
- 利用空间一致性reject一些散列词;
Stop list
绘制词数-词频图,收集词频top 5%和bottom 10%的词,组织成Stop list。
空间一致性
针对匹配点/区域,检查附近是否有15个已匹配的点/区域,少于则rejected。实质上是强调了特征之间的相对位置。
Inverted files
所有visual word作为key,存储了所有连接的frame,利用inverted file将使得检索非常快速。
参考
- 别人写的review,链接
- Bag of Features (BOF)图像检索算法,未找到原文,链接
- Video Google.ppt,链接
- 这篇文章的PAMI版,链接
- Video Google: A Text Retrieval Approach to Object Matching in Videos
- Video Google: A Text Retrieval Approach to Object Matching in Videos
- Video Google: A Text Retrieval Approach----词频那部分解释
- Thinking about a paper "A Refinement Approach to Handling Model Misfit in Text Categorization"
- An End-to-End Approach to Natural Language Object Retrieval via Context-Aware Deep Reinforcement Lea
- A new approach to china (by Google)
- FW:A new approach to china(Google)
- A PAPER LIST FOR OBJECT DETECTION IN VIDEOS
- Multimedia Database Retrieval:: A Human-Centered Approach
- A new Google approach to China: an update
- 【论文阅读】Sequential Matching Network: A New Architecture for Multi-turn Response Selection in Retrieval
- An Efficient Shape-Based Approach to Image Retrieval
- A new approach to China
- 读论文:CVPR2012,A unified Approach to Salient Object Detection via Low Rank Maxtrix Recovery
- 《A Fragment-Based Approach to Object Representation and Classifiacation》阅读翻译
- MUSTer:Multi-Store Tracker:A Cognitive Psychology Inspired Approach to Object Tracking
- A guide to object cloning in java
- A Practical Approach to Exploiting Coarse-Grained Pipeline Parallelism in C Program
- 张伟平得罪巩俐:在张艺谋面前捏造其劈腿
- 蝶恋花
- 欢迎使用CSDN-markdown编辑器
- UPC:2218 Thrall’s Dream(BFS)
- ZooKeeper基础
- Video Google: A Text Retrieval Approach to Object Matching in Videos
- XSLT输出比较或运算不想被转义
- [OSGI]OSGI入门介绍
- Application, Cache, Session, Cookie, Viewstate 用法和区别
- bootstrap (前端css框架)
- Unity3D导出eclipse工程使用JNI会崩的解决方法
- 每日一得--单向认证
- 45. PHP do-while
- UPC:2219 A^X mod P(预处理空间换时间)