Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors
来源:互联网 发布:中国m2历年数据曲线图 编辑:程序博客网 时间:2024/05/24 05:38
Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors
这篇文章提出了一种新的视频表示方法,叫做trajectory-pooled deep-convolutional descriptor(TDD)。他拥有手工设计的特征和深度学习的特征的优点。用深度结构来学习有区分的卷积特征映射。然后用轨迹控制的pooling方法来融合这些卷积特征。
本文设计了两种正则化的方法来转化卷积特征映射,即时空正则化和通道正则化。
我们提的特征的优点:1)能够自动的学习得到高可区分性的特征,2)考虑了时间维的本质特性,引进了轨迹控制策略来采样和pooling深度学习的特征。
改进的轨迹:首先,在8个不同的空间尺度上,用步长为5个像素的格子,密集采样一系列的点。然后,这些被采样的点被密集的光流区域的均值滤波器跟踪。最后,这些缺乏运动信息的静态轨迹被删除,其他有巨大变化的轨迹也被忽略,因为他们是明显的不正确的光流。
改进的轨迹能够促进密集轨迹的识别的性能,因为他考虑了相机的运动信息。我们对改进的轨迹做了一点点的改变。我们只跟踪原始空间尺度上的点的轨迹。我们发现在单个尺度上能够比较快速的实现。
深度卷积描述子:
(1)卷积网络:我们选择的是two-stream ConvNet,因为他的性能不错。我们做出了一点点的改进,我们使用相同的网络结构,原始的网络在时间网络上忽略了第二层上的局部响应正则化(LRN),我们加上了。
(2)卷积特征映射:一旦两路的卷积网络训练完成,我们把它看做是一般的特征提取器来得到视频的卷积特征映射。对于每一帧,我们都把他看作是空间网络和时间网络的输入。我们对空间网络和时间网络做出了两点的改变:第一,我们删除了特征提取目标层后面的所有层。第二,在每一个卷积或者pooling层之前,对每一层做一个0填充。
轨迹池化的描述子:从提取的轨迹和卷积特征映射中得到trajectory-pooled deep-convolutional descriptory(TDDs)。
提取TDD包括两个步骤:特征映射正则化和轨迹池化。
我们设计了两种正则化的方法:时空正则化和通道正则化。我们选择时空正则化。
基于轨迹和正则化后的卷积特征映射来提取TDDs。
多尺度的TDD提取:我们在一个单一的尺度上计算光流和跟踪点,然后我们用多尺度的金字塔表示视频的帧和光流。
特征编码:我们选择Fisher vector来编码TDDs。然后用一个线性的SVM做分类器。为了训练GMMs,我们首先用PCA来对TDD去耦合,减少他的维度。
0 0
- Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors
- Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors
- "Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors"阅读小结
- Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors
- READING NOTE: Pooling the Convolutional Layers in Deep ConvNets for Action Recognition
- DeCAF: A deep convolutional activation feature for generic visual recognition
- Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
- Very Deep Convolutional Networks for Large-Scale Image Recognition
- Very Deep Convolutional Networks for Large-Scale Image Recognition(精读)
- Very Deep Convolutional Networks for Large-Scale Image Recognition
- Very Deep Convolutional Networks for Large-Scale Image Recognition
- Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
- very deep convolutional networks for large-scale image recognition---vggnet
- VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
- 论文Very Deep Convolutional Networks for Large-Scale Image Recognition
- DeCAF: A Deep Convolutional Activation Featurefor Generic Visual Recognition阅读
- Very deep convolutional networks for large-scale image recognition
- Very Deep Convolutional Networks for Large-Scale Image Recognition
- 1067. Sort with Swap(0,*) (25)
- cmd命令行大全 dos命令 cmd命令整理
- ER 图
- 如何在Linux上运行Mono
- Hdu5429,数学+高精度+等比序列判断
- Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors
- mysql导入与导出sql文件指令
- 用nodejs解析json数据
- 你想学好rails+vim+ruby+titanium等等成为全栈工程师牛人么?这里是牛人博客网站地址
- php xss filter
- 解决sessions should be nested with care, unset $TMUX to force错误
- Bestcoder#54 A problem of sorting
- php数组与字符串的转换
- 一个游戏数值策划的自白:我所理解的数值工作