基于内容的视频检索(CBVR)

来源:互联网 发布:网络统考成绩查询短信 编辑:程序博客网 时间:2024/06/04 17:44

参考

1. 视频检索的基本流程

这里写图片描述

2. 视频的结构分层

这里写图片描述
各层都可以用一些属性来描述:
1. 视频序列的属性主要包括场景的个数和持续时间;
2. 场景的属性包括标题、持续时间、镜头数目、开始镜头、结束镜头等;
3. 镜头的属性包括持续时间、动态特征,静态特征,开始帧号、结束帧号、代表帧集合、特征空间向量等;
4. 帧有大量的属性,包括直方图、轮廓图、DC及AC分量图等。

2.1结构化分析过程

  1. 将视频序列分割为镜头
  2. 在镜头中提取关键帧
  3. 镜头聚类,提取场景(?)

2.2 镜头边界检测SBD

见Shot边界检测—-2001-2007TRECVID比赛算法总结

2.3 关键帧提取技术

用关键帧代表镜头,使得对视频镜头可用图像的技术进行检索。
关键帧必须能够反映镜头中的主要事件,数据量应尽量小,且计算不宜太复杂。
1. 特定帧法
一段视频被分割成若干镜头后,将每个镜头的首帧、中间帧以及末帧作为镜头的关键帧。简单,但没考虑运动特性,不能反映镜头内视频内容的变化,不适用于变化较多的镜头内。
2. 帧平均法和直方图平均法
帧平均法是取一个镜头中所有帧的某个位置上的像素值的平均值,将镜头中该点位置的像素值等于平均值的帧作为关键帧。
直方图平均法则是将镜头中所有帧的统计直方图取平均,然后选择与该平均直方图最接近的帧作为关键帧。
能在一定程度上反映视频内容,计算量也不大,所选取的帧具有平均代表意义,但是没考虑运动特性,由于需要记录每一帧每个像素的值或直方图,所以要实现动态选取,所需的存储量较大。无法描述有多个物体运动的镜头。
3. 基于光流的运动分析
考虑了运动信息,但会因运动产生累计误差。

2.4 镜头聚类和场景提取

场景分割通常也称为故事单元分割,其目标在于获取视频的最小语义结构单元——场景。通过对已分割出的镜头进行聚类,将内容相近的连续镜头合并为一个单元组,从而得到场景信息,为进一步进行视频内容分析提供基础。
通过视频聚类可以缩小检索的范围,提高检索的效率。 在镜头聚类及场景生成过程中,镜头不仅在时间上是连续的,更重要的是它们在内容含义上是一致的,这是镜头聚类的关键。
可按时间顺序和关键帧的相似度进行聚类,最简单的方法可以用内容上相关的镜头中的关键帧来代表情节。
把镜头聚类为故事单元后,其数量明显减少。例如对于一部典型的连续剧,半小时的节目中约有300个镜头,经过聚类后可形成约20个故事单元。
根据镜头的重复程度,视频一般可分对话型和动作型。对话型视频是指一段实际的对话或者象对话一样由两个或多个镜头重复交替出现的视频。动作型视频反应故事的展开,镜头不是固定在一个地点或跟随一个事件,因而很少发生镜头的重复。一个有13个镜头的视频序列,各镜头分别标记为:A B A B A B A B C D E F G。其中,前8个镜头可认为是对话型的,而后5个则是动作型的。

原创粉丝点击