Long-term Recurrent Convolutional Networks for Visual Recognition and Description

来源:互联网 发布:米兔积木机器人 编程 编辑:程序博客网 时间:2024/05/17 09:02

1 INTRODUCTION

       图像和视频的识别和描述是计算机视觉的根本挑战。近年来,针对图像识别任务的监督卷积神经网络(CNN)模型已经取得了显着的进步,并且最近提出了一些对视频处理的扩展。理想情况下,视频模型应该允许对可变长度的输入序列进行处理,并且还提供可变长度的输出,包括生成 超出常规一对一预测任务 的全长句子描述。在本文中,我们提出了Long-term Recurrent Convolutional Networks(LRCN),一种用于视觉识别和描述的架构,其结合卷积层和long-range temporal recursion,并且是端对端可训练的(图1)。

我们实例化我们的架构,用于特定的视频活动识别,图像字幕生成和视频描述任务,如下所述。

       对CNN视频处理模型的研究已经考虑了在原始序列数据[1],[2]上学习3D时空滤波器,并学习了帧到帧表示,其将瞬时光流或基于轨迹的模型集成在固定窗口或视频拍摄片段[3],[4]。这些模型探索了感知时间序列表示学习的两个极值:学习任何一个通用的时间变化权重,或者应用简单的时间池化。(不懂)遵循同样的启发,激发了当前的深度卷积模型,我们主张视频识别和描述模型在时间维度上也是深层次的;即潜在变量的时间循环。RNN模型是“时间深度”的 - 在展开时明确地显示 - 并在时域中形成隐含的组合表示。这种“深度”模型早于文献[5],[6]中的深度空间卷积模型。

       在感知应用中使用RNN已经探索了数十年,结果不一。将状态信息随时间进行严格整合的简单RNN模型的显着限制被称为“梯度消失”效应:通过长范围时间间隔反向传播误差信号的能力在实践中变得越来越困难。 [7]中提出的LSTM单元是能够进​​行远程学习的递归模块。 LSTM单元具有非线性机制的隐藏状态,允许状态传播而不需要修改,更新或重置,使用简单学习的门控函数。近来,LSTMs已经被证明能够学习大规模语音识别[8]和语言翻译模型[9] [10]。

       我们在这里展示了具有循环单元的卷积网络通常适用于视觉时间序列建模,并且认为,在以前已经采用静态或时态模型的视觉任务中,LSTM style RNN可以提供显着的改进,当有充足的训练数据可用于学习或修改表示。具体来说,我们展示了LSTM style模型提供了对常规视频活动挑战的更好的识别,并且实现了从图像像素到句子级自然语言描述的新颖的端到端优化映射。我们还显示,这些模型改进了从传统视觉模型导出的内部视觉表示的描述。

         我们在三个实验设置中实例化了我们提出的架构(图3)。首先,我们表明直接将视觉卷积模型连接到深层LSTM网络,我们能够训练捕获时间状态依赖性的视频识别模型(图3左图;第4节)。虽然现有的标签视频活动数据集可能没有具有特别复杂的时间动态的动作或活动,但是我们仍然观察到在常规基准测试上的显着改进。

         其次,我们探讨端到端可训练的图像到句子映射。最近报道了机器翻译任务的强大结果[9],[10];这些模型是基于LSTM网络的编码器 - 解码器对。我们提出了这个模型的多模态模拟,并描述了一种使用视觉卷积网络编码深度状态向量,并使用LSTM将其转换为自然语言字符串的体系结构(图3中间;第5节)。所产生的模型可以在大规模图像和文本数据集上端对端进行训练,即使采用适度的训练,与现有方法相比也能提供有竞争力的生成结果。

        最后,我们展示了LSTM解码器可以直接从传统的计算机视觉方法驱动,这种方法可以预测更高层次的辨别性标签,如[11](图3,右图,第6节)中的语义视频角色元组预测器.虽然没有端到端的可训练性,但是这种模型提供了相对于以前基于统计机器翻译的方法的架构和性能优势。

       我们已经在广泛采用的深度学习框架Caffe [12]中实现了一个递归模型的通用框架,其中包括RNN和LSTM单元的即用型实现。 (见http://jeffdonahue.com/lrcn/)



阅读全文
0 0
原创粉丝点击