Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors

来源：互联网发布：中国m2历年数据曲线图编辑：程序博客网时间：2024/05/24 05:38

Action Recognition with Trajectory-Pooled Deep-Convolutional Descriptors

这篇文章提出了一种新的视频表示方法，叫做trajectory-pooled deep-convolutional descriptor(TDD)。他拥有手工设计的特征和深度学习的特征的优点。用深度结构来学习有区分的卷积特征映射。然后用轨迹控制的pooling方法来融合这些卷积特征。

本文设计了两种正则化的方法来转化卷积特征映射，即时空正则化和通道正则化。

我们提的特征的优点：1）能够自动的学习得到高可区分性的特征，2）考虑了时间维的本质特性，引进了轨迹控制策略来采样和pooling深度学习的特征。

改进的轨迹：首先，在8个不同的空间尺度上，用步长为5个像素的格子，密集采样一系列的点。然后，这些被采样的点被密集的光流区域的均值滤波器跟踪。最后，这些缺乏运动信息的静态轨迹被删除，其他有巨大变化的轨迹也被忽略，因为他们是明显的不正确的光流。

改进的轨迹能够促进密集轨迹的识别的性能，因为他考虑了相机的运动信息。我们对改进的轨迹做了一点点的改变。我们只跟踪原始空间尺度上的点的轨迹。我们发现在单个尺度上能够比较快速的实现。

深度卷积描述子：

（1）卷积网络：我们选择的是two-stream ConvNet，因为他的性能不错。我们做出了一点点的改进，我们使用相同的网络结构，原始的网络在时间网络上忽略了第二层上的局部响应正则化（LRN），我们加上了。

（2）卷积特征映射：一旦两路的卷积网络训练完成，我们把它看做是一般的特征提取器来得到视频的卷积特征映射。对于每一帧，我们都把他看作是空间网络和时间网络的输入。我们对空间网络和时间网络做出了两点的改变：第一，我们删除了特征提取目标层后面的所有层。第二，在每一个卷积或者pooling层之前，对每一层做一个0填充。

轨迹池化的描述子：从提取的轨迹和卷积特征映射中得到trajectory-pooled deep-convolutional descriptory（TDDs）。

提取TDD包括两个步骤：特征映射正则化和轨迹池化。

我们设计了两种正则化的方法：时空正则化和通道正则化。我们选择时空正则化。

基于轨迹和正则化后的卷积特征映射来提取TDDs。

多尺度的TDD提取：我们在一个单一的尺度上计算光流和跟踪点，然后我们用多尺度的金字塔表示视频的帧和光流。

特征编码：我们选择Fisher vector来编码TDDs。然后用一个线性的SVM做分类器。为了训练GMMs，我们首先用PCA来对TDD去耦合，减少他的维度。

0 0