谷歌AVA数据库的1705.08421论文（5）

来源：互联网发布：snmp网络管理框架编辑：程序博客网时间：2024/05/29 06:45

5.试验

5.1.试验准备

在Table1看到的，AVA数据集中的追加的素材，标签的分布大体上遵从齐夫定律(Zipf)。自从在很小量的测试集上评估认为可能是不可靠，我们只有用那些有至少25测试实例的类别，来检测动作定位的表现。我们的检测基准设定为由44个动作类别组成，这些类别适合要求，且每个类别有90个训练实例的最小个数。我们随机选择训练数据的10%作为确认系列，用他们调整模型的参数。

为了证明我们基准方法的竞争性（优势），我们也应用他们到JHMDB数据集[8]，再与之前的技术水平比较结果。我们使用正式的为训练及验证的数据集提供的split1（函数）。

在AVA和JHMDB（还有许多其他动作数据集）的一个关键差异是，AVA的动作标签是不互斥的。例如多个标签被指定到一个矩形框。为了说明这个，我们用每个类别的sigmoid函数的损失的求和代替一般的softmax损失函数，因此优化过程中，标签不相互竞争。我们保持在JHMDB上的sigmoid函数的损失，像在这个数据集上的以前方法所用的默认损失一样。基准模式设置的支持是对这2个数据集来说一样的。

我们遵从PASCAL VOC挑战[9]所使用的协议，向mAP公布使用0.5的IoU临界值的所有动作类别。这指标一般也是用在评价动作定位上。

5.2.基准方法

针对时空动作识别的当前领先的方法是基于在视频[11, 30, 34, 35]上的R-CNN [10]的扩展。我们用Faster R-CNN [28]，遵从Peng & Schmid [26]提出的端到端训练过程，期望用101层ResNet[13]代替VGG网络，ResNet在图像处理上有更高的性能。我们的Faster R-CNN是基于TensorFlow实现的。

为了合并具有流模式的RGB，我们首先用RGB和流模式独立的运行RPN。然后我们取出来自每个网络输出的top100的RPN建议，执行非极大值抑制算法。一旦这些建议被获得，我们在Fast RCNN模式下运行RGB和流模式，获得每个矩形框的类别得分的平均值。

RGB与光流法提取

为提取光流，我们预测摄像头运动（移动）信息，使用补偿流场。来自流场的u、v值被截取为[-20,20]，之后被量化为[0, 255]，被存成JPEG图像，3^rd通道都是0。我们使用2中方法：密集的光流评估方法TVL-1 [27]，基于迭代Deep Flow模式（FlowNet-ss网络[17]的变种）的CNN，它有11M的参数，在cpu上每帧要花费360ms，最终在寻龙记（Sintel）[5]上获得一个4.4的EPE。

我们也尝试单独流与5个一堆的连续流比较，期望后者完成的更好，在于它获得更多时空信息。

图像与编码光流被重定义大小，对JHMDB从340像素为256，对AVA从800像素为600。我们对AVA使用更高分辨率，是因为数据集包含了大量的小矩形框。

Figure 9.，这个散点图里，这些点相当于基准集上的对44个动作类别中每一个的平均精度。

对任何一个这样的点，x轴是动作的训练实例的个数，y轴是平均精度。还有基于RGB，光流，和他们的融合的3种不同模式的颜色符号。

模式参数与初始化

我们用momentum为0.9的momentum优化器异步训练Faster R-CNN动作检测分类器。对RPN，batch size（批尺寸）是64，对box classifier（盒分类器）是256。超参大多数固定为COCO物体识别处理[15]里的默认值。仅有的例外是选用了验证集的训练步数，学习率。我们的模型是在600k步数，2e-4的学习率，以及200k步数，2e-5学习率下被训练的。

我们用来自[13]的开源ResNet-101检查点，来初始化模型权重。对光流模型初始化，我们从2个输入通道的ResNet-101的第一个conv1层来获得权重，复制他们以适配流输入的规格。

Table4.指在0.5的IoU临界值情况下的平均精度，对JHMDB split1和AVA基准。

Table5.指在AVA基准上， 0.5的IoU临界值情况下的平均精度，按矩形框大小区分。比42x42小的矩形框算作小，比96x96大的矩形框算作大。

5.3.试验结果

Table4总结了在JHMDB和AVA数据集上的我们基准的表现。我们基准方法比在JHMDB [26]上的之前技术水平要好很多(62.0% vs. 58.5%)。不过，在AVA基准数据集上它的表现，比在JHMDB低很多。这个结果显示了我们数据集的难度，打开了研究新的，甚至可能对动作定位的彻底不同的方案的机会。

在这2个数据集上，基于模式的RGB获得了最好脱机表现，与光流模式融合给出了更好调度表现。我们也能看到使用了Deep Flow解码流和stacking多重流对JHMDB有帮助，对AVA也同样。

Table5按矩形框大小分隔了其性能。这个结果与来自COCO检测挑战的研究一致，如小矩形框有最低的性能，因为他们定位分类很难。Figure 9展示了标有训练实例数量的独特的类别Aps。像我们看到的，有罕见的“容易”类别，有许多不必要数据的类别意味着高mAP。

6.结论

本论文介绍了AVA数据集，展示了当前技术水平的方法，在以前的数据集上运行很好，在AVA上表现不好。这激发了开发新方法的需求。AVA数据集能测量性能，能在真实情况下发展。

将来工作包括基于我们原子动作来建模更复杂动作和活动。现代视觉分类技术使我们能在视觉层次或粗糙场景下分类事件，如在餐厅吃饭，但仅仅基于AVA的好的时空粒度的模式给予我们在个别代理动作的层次上理解的希望。需要有必要的步骤，其才能向计算机灌输 “social visual intelligence”，理解人在做什么，他们可能下一步做什么，他们正努力实现什么目的。

结束。

阅读全文

0 0