【文章小结】Efficient Action Spotting Based on a Spacetime Oriented Structure Representation

来源：互联网发布：淘宝产品拍照编辑：程序博客网时间：2024/06/01 09:20

一.概述：

本文提出了一种新的局部描述子，这种个描述子是基于时空方向能量的，本文用它来进行行为定位；

本文采用的数据库是MIT-有氧运动的数据库【视频较长】，以及户外行为数据库【包含三种行为：向左走，向右走，挥手】；

本方法可以适应，多变外观的相同动作（例：人的衣着不同，但都在进行单脚跳）的定位、快速变换的动作定位、一个视场中多个行为的动作定位。

二.实践步骤：

1．定义三维高斯差分滤波器对输入视频帧的感兴趣区域进行滤波，即逐点卷积，得到的结果为每一个像素点时空能量信息，定义该值即为该点的时空能量的大小;

2．由于高斯差分滤波对相位敏感，根据瑞利定理（时域、频域的模的平方和正相关），得到信号的频域表示，此时的高斯差分是相位成分独立的高斯差分；

3．行为定位与目标跟踪是有略微不同的，行为定位希望得到的时空特征是，对细致的空间轮廓信息可以感知不到，但是，对运动行为的性质与模式是的需要很敏感的。

（例：针对穿着不同的、身形不一的，但动作一致的人，定位出其行为的一致性。这种待实现的要求，使得空间方向因为边缘化而大打折扣。）

简言之就是要得到像素时空能量中，像素点的运动方向。

另：

高斯滤波方向滤波有这样一种性质，变量为N的方向滤波可以实现N+1方向的空间划分，可以用下列公式将像素点的能量方向提取出来：

4．得到所定义运动方向上能量点数值的集合，并将之归一化得到；

5．用它构建时空能量方向梯度的模板块，进行训练学习；

【物理含义】

1）将感兴趣区域的像素点，提取出来，用高斯差分函数计算其三维时空方向的能量；

2）再将它投射到傅里叶空间，得到该点的能量谱；

3）根据该点频域上的能量谱的相位信息，根据不同的相位对像素进行归类；

4）频域的相位信息对应的是原像素点的运动角度，也就是像素点的运动方向，同一运动方向的像素点，表示的是同类运动；

5）对同类运动进行规范化表述；

5．本文用Bhattacharyya相似性度量方式，计算模板与视频块的相似性，其中S、T表示模板与视频的时空表示；

公式（7）

6．由于模板中不同区域对识别准确性的贡献度不相同，因此添加不同的权值对识别的效果有进一步提升，w表示加权：

公式（9）

结果M（x）为0到1分布的量，该数值量越小表示相似度越小，0表示模板与视频块完全失配，两者不存在相似性。

三.实践结果：

识别跳步、旋转、下蹲与向左走、向右走、挥手：

【本文待思】

如果将一类相同的点作为团块，将其放到时空立方体中，作为模板块进行模板匹配，识别行为，那么改变构造模块的方式，就能实现，识别特征的创新；

快速运动仅存在于有氧运动之中，但有氧运动近似认为是静止背景。而复杂背景的行为，为走路，走路行为目标运动速度较慢，因此，在高速运动且背景复杂的环境下的识别能力，本文不能给出较有力阐明。

0 0