MPEG-CDVA标准概述论文粗译 Compact Descriptors for Video Analysis:the Emerging MPEG Standard

来源：互联网发布：月球背面知乎编辑：程序博客网时间：2024/06/05 10:02

文章翻译只是为了更好地理解论文……英语水平欠佳，谨慎参考。

面向视频分析的紧凑视觉描述子

Abstract

文章对正在制定中的MPEG-CDVA标准做了概述。MPEG-CDVA标准旨在定义标准的二进制流语义，以实现视频分析应用中上下文的互操作性。在MPEG-CDVA标准的制定过程中，采用了一系列的技术来缩短描述子的长度以及提高描述子对视频的描述能力。这篇文章介绍了处于制定过程中的新标准和标准中关键技术的表现性能。

1. Introduction

2. The MPEG CDVS Standard

3. Key Technologies in CDVA

MPEG-CDVS标准的成功给CDVA的发展打下了基础，在此基础之上，又有一系列技术被提出。在CDVA中，关键贡献可被归类成三个方面：视频结构化，视频特征描述和视频分析流水线。CDVA框架制定了视频是如何结构化和组织化以进行特征提取，描述了关键帧检测和内部特征预测的方法。随后，回顾了基于深度学习的特征描述，讨论了深度学习模型的压缩方法和设计理念。最后，介绍了充当了服务器端处理模块的视频分析流水线。

3.1 Video Structure 视频结构化

视频由一系列高度关联的帧组成，所以对每一个独立的帧提取特征描述子会带来不必要的计算开销。考虑到这一点，（CDVA标准中）使用了一种关键帧检测的方法，然后只提取关键帧的描述子。在文献[10]中，使用了CDVS标准中的全局描述子SCFV计算当前帧和前一帧之间的距离。特别地，如果这个距离小于一个给定的阈值，说明没有必要对当前帧进行特征提取，舍弃当前帧。然而这种方法的缺点是每一帧都要计算SCFV描述子，提高了计算复杂度。在文献[11]中，使用颜色直方图的方法代替CDVS描述子计算帧级的距离。因此，非关键帧的SCFV描述子就没有必要进行提取。这种方法因其优越性被CDVA的CXM 0.2所采用。在文献[13][14]中，Bailer提出了校正彩色直方图产生的分段segment的方法。特别地，对于每一个segment，选择其中心帧（可能是通过聚类的方法选出了一个medoid帧），并且在同一个segment中的帧之间的SCFV的相似性都小于一个给定的阈值。
基于关键帧的特征描述可以有效降低视频的时间冗余，可以让待检索描述子以低位率传输。但是，这种策略大大忽视了两个关键帧的中间信息。在文献[15]中，interesting（？？？不应该是理所当然的么）发现密集取样的帧使描述子长度增长但能提高视频匹配和检索的性能。为了达到特征位率和视频分析性能呢之间的良好平衡，文献[15][16][17]提出了一种对CDVS局部和全局描述子进行内部预测的技术。特别地，在文献[15]中，两个关键帧之间的帧表示为预测帧即P帧。（TODO，什么意思？）P帧中，通过多个参考帧的预测来预测局部描述子。那些不能找到相关参考帧的局部描述子，会被直接写入比特流。至于P帧中的全局描述子，对于从当前帧和之前的帧中选择出来的组分，二值化的子向量将从前一阵中相关的组分中直接复制过来以节省编码位。文献[16][17]进一步提出，通过对局部描述子进行有损压缩可以达到超过50%的压缩率而不太损失匹配性能。除此之外，使用自适应的二进制算数编码方法可以高效编码全局差值描述子？（global difference descriptors）。

3.2 Deep Learning Based Video Representation 基于深度学习的视频描述

3.2.1 Deep Learning Based Feature Extraction 基于深度学习的特征提取

3.2.2 Network Compression 网络压缩

3.2.3 Feature Descriptor Compression 特征描述子压缩

3.2.4 Combination of Deep Learning Based and Handcrafted Features 深度学习特征和手工特征相结合

3.3 Video Analysis Pipeline 视频分析流水线

视频的紧凑描述能够应用于视频分析的两类典型任务：视频匹配和视频检索。视频匹配旨在确定两个视频是否含有相似内容的场景或物体，视频匹配用于检索含有相似segment的视频。

3.3.1 Video Matching 视频匹配

一组视频对，给定其关键帧的CDVA描述子之后，可以采用一个由粗到精的策略进行匹配。对于一个视频中的每一个关键帧，首先跟其他视频中的所有关键帧，比较全局特征相似性，如果相似性大于某个阈值，就认为这两帧极有可能是匹配的，之后再使用几何一致性校验的方法比较局部描述子（局部特征位置信息的几何一致性校验?）。关键帧级别的相似性由全局和局部描述子的相似性共同计算特岛。最终可已在所有关键帧级别的相似性中选择最大值作为视频级别的相似性。
另一个视频匹配的标准是时间定位，基于记录下来的时间戳定位到含有相似感兴趣物体的视频段segment。文献[29]中，CXM1.0采用了shot级别的定位方法，shot被定义为一组连续的关键帧的集合，并且集合中所有关键帧到shot中第一个关键帧的距离都小于某一个固定的阈值，这个距离使用颜色直方图进行计算。如果关键帧级别的相似性大于某个阈值，含有这个关键帧的shot会被作为一个匹配的interval（就认为含有这个关键帧的shot整个一段都是匹配的），多个matching intervals也会被连接起来以得到最终的定位时间间隔。

3.3.2 Video Retrieval 视频检索

视频检索与视频匹配不同，它是1-N的，数据库中的视频都会被检索，然后得到匹配值最高的一些视频。特别地，使用全局描述子的关键帧级别的匹配，能从数据库中找到K_g个候选的关键帧，然后这个关键帧进一步使用局部描述子作匹配，得到K_l个关键帧，这些关键帧使用全局和局部描述子的相似性共同进行排序。然后这些关键帧重新对应到视频中去，使用视频匹配流水线的方法进行一个视频级别的排序。

4. Emerging CDVA Standard

略

5. Conculsions and Outlook 结论和展望

阅读全文

0 0