谷歌AVA数据库的1705.08421论文(4)

来源:互联网 发布:上海淘宝客服招聘 编辑:程序博客网 时间:2024/05/29 08:04

4. AVA数据集的特性

            我们通过讨论数据的类型与分布开始分析,展示注释的高质量。之后我们研究感兴趣的动作,和时间结构,这使此数据集真正的独一无二。然后我们讨论这些特性,其使数据集具有挑战性,尤其对动作检测任务。

             首先,建立直觉的一些样本。每个样本被推荐为来自片段的3帧:带矩形框的中间帧圈住表演动作的人,在中间帧之前的0.5s的那一帧,在中间帧之后的0.5s的那一帧。这2个额外帧为可视化动作提供了上下文背景。

             Figure5展现了不同动作的样本。我们能看见关于矩形框内人的高度与位置的巨大差异。摄影技术也不同,尤其在不同的风格,不同方向比率,手法,色调。镜头边界可能出现在一个段落内,诸如“fall down”样本。然而,召回动作标签仅仅对应与中间帧,因此他们是仍旧容易定义。某些动作实例能从一个独立的帧被定义,如打电话刷牙。无论如何,在帧内的语境上,有许多命令,和时空上下文一样,如“take a photo”, “fall down”“listen”。这使得数据变得尤其有趣,复杂。

      

       

             Figure5.不同标签类型的例子。

      有标着矩形框的人的中间帧被显示了,连同±0.5s的前后帧。注意,在人数量,形状,电影技术,镜头边界上的变化。对“take a photo”, “fall down”“listen”例子来说,时间,帧内语境是关键。

       

     Figure6显示了对碰杯动作的3个样本。即使在一个动作类别里,其表现也差异很大,普遍的是有不同的人的数量,非常不同的语境。干杯的容器可能在或可能不在帧里,杯子可能被部分的遮挡。时间长度也相应变化,在第一个里杯子被举起很长时间,在第二个里这个动作始终持续,而在第三个里这个动作直到中间帧也不是明确的。宽泛的同类的变化将允许我们获得识别动作的时空部分的关键特征,如对碰杯来说,触摸杯子。

              

             

             Figure 6. “碰杯标签的3个例子。

      有标着矩形框的人的中间帧被显示了,连同±0.5s的前后帧。其表现差异很大。


            另外的样本在追加的素材里。

4.1标注质量

           为了评估标签的一致性,在测试集里,3个人注释了每一个矩形框,提供了总共21个未加工的标签。我们定义异常率为被仅一个注解者提供的未加工标签的个数(是未经证实的),除以被所有注解者提供的所有未加工标签的个数。例如,对一个有总共5个标签的段落,这里仅有被一个注解者列出的标签是1个,异常率为0.2。异常率为0则意味着没有未经证实的标签(即都可信),1则意味着所有都不一致(即都不可信)。Figure7显示了一个在测试集上的异常率的柱状图。多数的比率是非常低,展示了内部注解者的良好的一致性。

           

           Figure7.测试集里,注解者间的标签异常率的柱状图。因为异常比例一般是非常低,我们推断出注解者是一致连续的。


           

          Table1.AVS数据集里最多的普通的姿势和互动的标签。互动的包括人与人,人与物。全部的列表被显示在追加的素材里。

           

          Table2.在训练集里,标着矩形框的每个人的标签的个数。其他动作的标签被忽略了。几乎所有矩形框都有一个预定义列表里的姿势,多数至少也有一个活动。总共有76990个至少带有一个标签的标矩形框的人。


4.2 动作结构

     随着标注质量的确定,我们接下来审视数据的分布。总体上,有80个不同动作标签。除“其他动作”以外,有14姿势标签,17个人与人互动标签,49个人与物互动标签。大部分频繁发生的姿势与互动标签被显示在Table 1里,所有标签的列表在追加的素材里。注意姿势和互动的多样性,来自像“站”的简单姿势到像“看(TV)”的复杂互动。

     一个重要问题是姿势与互动标签的列表是否充分的描述了电影内容的广泛多样性。注解者对姿势或互动指定了“其他动作”的标签,意味着所有的标签列表(姿势/人与人/人与物)中没有出现合适的标签。注解者从来不对任何一个标签类别指定“其他动作”两次。除去对每个矩形框的3个标签类别外,在训练集里,“其他动作”标签被用仅1.0%的时间。这个说明标签列表确实是很全的。

     数据也展示了感兴趣的结构,多数标着矩形框的人带有多重标签。Table 2提供了对每个标着矩形框的人的标签数量的频率。回想下在段落中可能有多个人。“其他动作”的标签是不计数的。几乎所有矩形框有一个来自列表的姿势标签,再一次论证了标签列表有良好的规模优势。除此以外,多数矩形框至少有一个互动标签。这论证了数据是复杂的,彻底的分层了动作的原子类型。

     

     Table3在训练数据里,最高和最低NPMI一起出现至少一次,对给定段落里的单个人的一组标签来看。

     

      给了大量带有至少2个标签的样本,我们能在这个数据里发现感兴趣的模式,而在其他数据集里不存在。(Normalized Pointwise Mutual InformationNPMI[8]被用在语言上的表现2个单词间的共现关系,定义如下:

        

       直觉上值在( 1; 1]范围内, NPMI(x; y) =1时的单词对,从来不共现。独立单词对则NPMI(x; y) =0,总是共现的单词对则NPMI(x; y) =1Table 3显示了NPMI结果中Top 9Bottom 3的标签对。

               我们确认期望在数据里的模式,例如当唱歌时人们频繁的演奏乐器。我们也能看到武术常常包含战斗,当与小孩玩耍时人们常常举起(一个人),当接吻时人们拥抱。在这个数据集里人们当站立时不安慰地睡觉,当跳舞时他们也不做。所有这些两两共现的原子动作将允许我们在将来建立更复杂的动作,且发现复杂活动的组合结构。

                

4.3 时空结构

            AVA数据集的另一个独有的特性是时空结构。回想3秒的连续段落被标注了,如果矩形框是错误的(很罕见)或在中间帧里没有人,则只用间隔的段落。查看动作从一个段落到另一个段落怎样发生的是有趣的。Figure 8显示了在连续3秒段落上的成对的姿势标签的NPMI值。第一个姿势在Y轴上,第二个在X轴上。使用喷色图,一个-1NPMI值(从来不共现)是深蓝色,0(独立)是浅绿色,1(总是共现)是深红色。

            

            Figure 8.姿势标签的NPMI,在喷色图上的连续段落间的转变。

            Y轴:段落上[t-3, t]秒的姿势标签。X轴:段落上[t, t+3]秒的姿势标签。(少于100个实例的姿势不包括在内)

        

      果然,在同样的姿势标签(对角线上)之间,转变是常常发生的,从任何标签到普通标签“做”,“站”,“走”。此外,感兴趣的通常感觉的模式出现了。像有很多频繁的转变,从“跳/跃”到“跳舞”,从“蹲/跪”到“俯身/鞠躬”。不可能发生的序列也能被学到,如“躺/睡”很少跟着“跳/跃”。

      在具有高的NPMI值的原子动作间的转变,为建立有时空结构的更复杂动作和活动,提供了非常好的训练数据。

4.4 数据复杂性

    对复杂性的首个贡献者是标签和实例的宽泛的种类。之前的分析讨论了长的标签列表,和种类数量的广泛分布。对复杂性的第二个贡献者是外观的多样性。矩形框数量的分布说明了这个。一大部分的人占去了帧的整体高度。可是仍就有很多数量少的框。这个可变性能通过缩放比例被解释。

    例如,有标签“进入”的矩形框,显示了典型的1:2的行人宽高比,图像宽度的30%的平均宽,72%的平均高。在另一方面,标注“躺/睡”的矩形框是接近方型的,58%的平均宽,67%的平均高。矩形框的宽度(范围)是确实广泛分布的,显示了人姿态的多样性必须承担实施标签化的动作。

    姿势的广度,互动,动作的共现,和人姿势的多样性,使这个数据集成为一个特别挑战性的数据集。


待续。。。。



原创粉丝点击