谷歌AVA数据库的1705.08421论文(2)

来源:互联网 发布:达内 构java 编辑:程序博客网 时间:2024/05/29 06:34

接续上节:


2.  关联工作

      大部分受欢迎的动作识别数据集,如KTH [31], Weizmann [4], Hollywood-2 [22], HMDB[21] and UCF101 [33],由短的剪辑组成,手工整理获得一个单独的动作。理论上这些数据集是合适,对训练全监督,整个剪辑,强制选择优先级来说。遗憾的是,尽管实用,这动作识别的构想是完全不切实际,真实世界的动作识别总是发生在未修饰的视频设定里,频繁的需要空间基础,像时间定位一样。

      近来,视频分类数据集,如TrecVid multi-media event detection [25], Sports-1M[19] and YouTube-8M [1],都关注在大粒度的视频分类,在某些场景下会自动生成(因此有潜在噪音)标注。他们提供有价值的作用,但相比AVA,面向一个不同需求。

      最近工作的另一条线,已经从视频分类转向时间定位。ActivityNet [6], THUMOS [16], MultiTHUMOS [36]Charades [32],使用了大量未修饰的视频,每个包含多种动作,从YouTube或众包者那获得。这数据集也提供对感兴趣的每个动作的时间定位,AVA就内容和标注而言是不同于他们的:我们标记一个电影的多样集合,在一系列的采样的视频帧上,为每个演示动作的主题提供时空标注。

            一些数据集,如CMU [20], MSR Actions [37], UCF Sports [29] andJHMDB [18],提供对短的整理过的视频,在每一帧上的时空标注。这与我们AVA数据集的主要差异是:从3(MSR Actions)到至多21 (JHMDB)的少量的动作,少量的视频片段,实际上那些片段是整理裁剪过的。而且在AVA里,动作是复合的(如撑杆跳高),不是原子的。例如UCF Sports dataset [29],其包括10个体育动作,像举重,骑马,跳水。最近的发展,诸如UCF101 [33], DALY [35] and Hollywood2Tubes [23],也在未修饰的视频上评估时空定位,使任务看起来更难,结果效率下降。然而,动作词汇表仍然限制在有限数量的动作上,至多24,因动作是复合,会使大规模的扩展困难。此外,他们不提供密集范围的所有动作;一个好的例子是在UCF101里的篮球扣篮,仅球员表演扣篮被标注了,反之所有其他球员没有。这些数据集是不现实的,真实世界的应用,会要求一个原子动作的连续标注,其能被组成高级别的事件。

    

      本章说明了已存在数据集在时空动作识别上的主要限制,都包含了在少数的特定环境上的片段,被标注了少量复合动作。在这,我们避开这些缺点,密集的标注80个原子动作,在57.6k真实电影片段上,结果就有了210k动作标签。

      AVA数据集也是涉及原有图像动作识别数据集[7, 9, 12]。数据集提供对人与他们的动作的标注。但,原有图像动作识别数据集出现2个主要缺点。一是运动信息的缺乏使消除模棱两可的情况在很多情况下很困难或不可能。我们发现了为标注个别帧,来自围绕视频的内容是必要的,作为动作的示范例子,有走路、站立、跌落。如果仅给一帧来标注的话,看起来很简单。通过我们的实验,对运动信息的需要也被认可了。二是,对原有图像来说,把复合事件的模式看作一个独立原子动作的时序,是不合理的。这个超出了可论证的范围,但在许多真实世界的应用上是清晰的被要求的,为此,AVA数据集提供可训练的数据。


继续待续。。。