论文笔记-Temporal segment network:towards good practices for deep action recognition

来源：互联网发布：react.js项目编辑：程序博客网时间：2024/06/07 08:17

1-摘要

卷积神经网络在图片的视觉识别方面已经取得了巨大的成功，然而关于视频的动作识别，成果还不是那么明显。这篇文章意在发现一种能够针对视频的行为识别设计有效的卷积神经网络结构并能够在有限的训练样本下学习这些模型。这篇文章最主要的贡献：Temporal Segment Network（TSN）--一种新型的基于视频的行为识别的网络结构。它将稀疏时间采样策略和基于视频的监督相结合，使用整个视频支持有效的学习。本文的另一个贡献就是利用TSN网络结构学习卷积神经网络在视频数据方面的处理。

2-Introduction

卷积神经网络在基于视频的行为识别方面难以展开的原因有两方面，一方面：long-range时间结构在理解行为视频上起着重要作用，但是主流的神经网络结构通常只关注appearences和short-term运动。另一方面：在实际中，训练深度卷积神经网络需要较大的训练样本来使得性能最佳，但是这方面的数据资源有限。

这些挑战都促使我们来解决以下两个主要问题：（1）如何设计一种有效的基于视频的网络结构能够学习视频的表现进而捕捉long-range时间结构。（2）如何在有限的训练样本下学习卷积神经网络模型。

本文设计的TSN网络结构能够在一段长的视频序列中通过稀疏采样的方法提取短片断（short snippets）,这些样本在时间维度上服从均匀分布，因此，利用segmental structure从采样得到的片段中搜集信息。

two-stream卷积神经网络的4种输入形式：RGB image，stacked RGB difference，stacked optical flow field，stacked warped optical flow field。在UCF101和HMDB51两个数据集上进行实验验证所提出方法的有效性。

3-Action Recognition with Temporal Segment Network

首先介绍TSN的基本网络结构，接着研究在TSN结构下学习two-stream卷积神经网络的good practices，最后介绍针对学到的two-stream卷积神经网络的测试细节。

3.1 Temporal Segment Network

对于一个输入的视频，将被分成K个segments，从每个segment中随机地选择一个short snippet。将选择的snippets通过two-stream卷积神经网络得到不同snippets的class scores,最后将它们融合。

3.2 Learning Temporal Segment Network

Network Architecture：网络结构在神经网络的设计中是要考虑的重要因素，很多工作表明网络结构的深度能够改善物体识别的性能。我们选择Batch Normalization（BN）-Inception结构设计two-stream 卷积神经网络：空间stream卷积神经网络作用在single RGB images，时间stream卷积神经网络以stacked optical flow field 作为输入。

Network Inputs:期初，two-stream卷积神经网络只将RGB images和stacked optical flow field分别作为时间和空间stream的输入。为了增强网络的泛化能力，我们将在原来基础上增加RGB difference和warped optical flow field。

Network Training：由于行为识别的数据集较小，因此在训练深度卷积神经网络的时候将会面临过拟合的问题，我们设计了几种策略在训练卷积神经网络来防止过拟合。（1）Cross modality Pre-training:当训练样本较少时，预训练是一种较好的训练神经网络防止过拟合的方法。（2）Regularization Techniques：BN可以用来解决covariate shift 的问题。在学习的过程中，BN会估计每个batch的均值和方差，并将这些值转换成标准高斯分布，这种操作将会加速训练过程的收敛，但是在转化的过程中会导致过拟合。因此在初始化预训练模型以后，我们选择freezeBN层的均值和方差（除去第一层外）。由于optical flow和RGB images的分布不同，第一个卷积层的激活值会有不同的分布，我们需要进行相应的均值和方差的再评估，我们把这种方法成为局部BN。同时，我们在BN-Inception结构中global pooling层加一个额外的dropout层来减少过拟合的影响。spatial stream卷积神经网络的dropout比例是0.8，Temporal stream 卷积神经网络的dropout比例是0.7。（3）Data Augementation：random cropping+horizontal flipping + scale jittering

4-Experiments

Models and code at https://github.com/yjxiong/temporal-segment-networks

Accuracy 和Loss曲线可视化：

阅读全文

3 0