论文笔记：Learning to Detect Violent Videos using Convolutional Long Short-Term Memory

来源：互联网发布：京东商城seo解决方案编辑：程序博客网时间：2024/05/21 20:26

论文链接：Learning to Detect Violent Videos using Convolutional Long Short-Term
Memory

目标

给一段视频，判断是暴力视频(violent)还是非暴力视频(non-violent)

使用convLSTM，对视频提取时空特征(spatial&temporal)，进行二分类

以前的深度学习做法是，先用CNN提取视频帧的特征，然后将FC的输出送入LSTM进行序列学习。这里FC的输出显然是视频帧的全局信息，在LSTM的学习中显然损失了其空间信息。对于暴力视频分类来说，我们可能需要关注的主要是帧与帧之间某个区域的快速移动和变化，所以在LSTM中不应该只用全局信息。
这篇论文提出的做法是，使用convLSTM(卷积LSTM)进行一体化的处理，即将卷积操作嵌入到LSTM中，实现时空的结合

convLSTM

输入：视频帧之间的差，对于暴力视频主要关注的是，人物或者物体是否有快速的移动，所以将帧与帧之间做差输入效果会好(这是作者的实验结果)，模拟光学流(optical flow)并且减少计算量
特征提取：先用ImageNet预训练好的AlexNet进行特征提取，包括卷积层(红色)、normalization层(灰色)、池化层(蓝色)，提取出的feature map输入convLSTM
时空序列分析：convLSTM，顾名思义，这是结合了卷积的LSTM，它的计算公式见下
结果输出：3个FC层，输出二分类，用BCE损失

convLSTM公式