Delving Deeper into Convolutional Networks for Learning Video Representations

来源：互联网发布：java texturepaint 编辑：程序博客网时间：2024/04/29 18:56

1 INTRODUCTION

视频分析和理解是计算机视觉和机器学习研究的重大挑战。虽然以前的工作传统上依赖于 hand-crafted and task-speciﬁc representations(Wang et al.,2011;Sadanand&Corso,2012),但设计通用视频表示的兴趣越来越大，可以帮助解决视频理解中的任务，如人类行为识别，视频检索或视频字幕（Tran et al，2014）。

二维CNN已经在诸如分类或检测的静态图像任务中展现了最先进的表现（Simonyan＆Zisserman，2014b）。然而，这样的模型丢弃了时间信息，时间信息已经显示在视频中提供重要的线索（Wang et al，2011）。另一方面，RNN已经证明了这一能力，理解诸如语音识别（Graves＆Jaitly，2014）或机器翻译（Bahdanau等，2014）等各种学习任务中的时间序列。因此，近来提出的利用循环和卷积的循环卷积网络（RCN）（Srivastava等，2015;Donahue等，2014; Ng等，2015），用于学习视频的表示。这种方法通常通过在视频帧上应用2D CNN，然后将CNN激活馈送到RNN以便表征视频的时间变化来提取“视觉感知”。

以前关于RCN的工作倾向于关注从2D CNN顶层提取的高级视觉感知。（不懂）然而，CNN通过池化层逐层建立空间不变性（LeCun等人，1998; Simonyan＆Zisserman，2014b）如图2所示。虽然CNN倾向于在顶层中丢弃局部信息，但是帧到帧的时间变化是平滑的。（不懂）视频块的运动往往局限于局部邻近帧（Brox＆Malik，2011）。（不懂）因此，我们认为目前的RCN架构不太适合捕获精细的运动信息。相反，他们更有可能专注于全局外观变化，如shot transitions。为了解决这个问题，我们引入了一种新颖的RCN架构，它不仅在二维CNN顶层上应用RNN，而且在中间卷积层上应用RNN。卷积层激活或卷积特征图保留了输入视频的更精细的空间分辨率，用于提取局部时空模式。

然而，将RNN直接应用于中间层卷积特征图，不可避免地导致了由于卷积特征图大小，表征输入到隐藏变换的大量参数。另一方面，卷积特征图保留了帧空间拓扑。我们提出通过在RNN单元中引入稀疏性和局部性来减少内存需求来利用此拓扑。我们扩展GRU-RNN模型（Cho et al，2014），并更换用卷积替换完全连接的RNN线性乘积运算。
因此，我们的GRU扩展直接在模型结构中编码视频之前的局部性和时间平滑度。（不懂）
我们使用Soomro等人（2012）的UCF101人体行为识别以及Chen＆Dolan（2011）的YouTube2text视频字幕数据集评估我们的解决方案。我们的实验表明，利用多种分辨率的“感知”来建模时间变化，可以提高比基准模型的性能，相应的动作识别增长为3.4％，视频字幕的增长为10％。

2 GRU: GATED RECURRENT UNIT NETWORKS

在本节中，我们将回顾特殊类型的RNN--GRU网络。RNN模型可以应用于具有可变长度的输入序列。它定义了一个 recurrent hidden state ，其每次激活都取决于之前时间的激活。具体地说，给定序列X =（x1，x2，...，xT），时刻t，RNN隐藏状态被定义为ht =φ（ht-1，xt），其中φ是非线性激活函数。RNN由于梯度爆炸或消失而难以训练（Bengio等人，1994）。然而，诸如LSTM（Hochreiter＆Schmidhuber，1997）或GRU（Cho等人，2014）的RNN的变体，已经经验地证明了其在机器翻译或图像/视频字幕生成等各种任务中，建模long-term temporal dependency的能力。在本文中，我们将主要关注GRU网络，因为它们具有与LSTM相似的性能，但是具有较低的内存需求（Chung等，2014）。
GRU网络允许每个循环单元自适应捕获不同时间尺度的依赖关系。GRU的激活ht由以下等式定义：

zt是一个更新门，用于决定单元更新其激活或内容的程度。 rt是复位门。 σ是sigmoid函数。当rti单元接近0时，复位门将忽略先前计算的状态，并使该单元看起来像读取输入序列的第一个符号。〜ht是与RNN中传统的循环单元类似的候选激活。

阅读全文

0 0