【文章小结】Efficient Action Spotting Based on a Spacetime Oriented Structure Representation

来源:互联网 发布:淘宝产品拍照 编辑:程序博客网 时间:2024/06/01 09:20

一.概述:

本文提出了一种新的局部描述子,这种个描述子是基于时空方向能量的,本文用它来进行行为定位;

本文采用的数据库是MIT-有氧运动的数据库【视频较长】,以及户外行为数据库【包含三种行为:向左走,向右走,挥手】;

本方法可以适应,多变外观的相同动作(例:人的衣着不同,但都在进行单脚跳)的定位、快速变换的动作定位、一个视场中多个行为的动作定位。

二.实践步骤:

1.定义三维高斯差分滤波器对输入视频帧的感兴趣区域进行滤波,即逐点卷积,得到的结果为每一个像素点时空能量信息,定义该值即为该点的时空能量的大小;

2.由于高斯差分滤波对相位敏感,根据瑞利定理(时域、频域的模的平方和正相关),得到信号的频域表示,此时的高斯差分是相位成分独立的高斯差分;

3.行为定位与目标跟踪是有略微不同的,行为定位希望得到的时空特征是,对细致的空间轮廓信息可以感知不到,但是,对运动行为的性质与模式是的需要很敏感的。

(例:针对穿着不同的、身形不一的,但动作一致的人,定位出其行为的一致性。这种待实现的要求,使得空间方向因为边缘化而大打折扣。)

简言之就是要得到像素时空能量中,像素点的运动方向。

另:

高斯滤波方向滤波有这样一种性质,变量为N的方向滤波可以实现N+1方向的空间划分,可以用下列公式将像素点的能量方向提取出来:

4.得到所定义运动方向上能量点数值的集合,并将之归一化得到;

5.用它构建时空能量方向梯度的模板块,进行训练学习;

 

【物理含义】

1)将感兴趣区域的像素点,提取出来,用高斯差分函数计算其三维时空方向的能量;

2)再将它投射到傅里叶空间,得到该点的能量谱;

3)根据该点频域上的能量谱的相位信息,根据不同的相位对像素进行归类;

4)频域的相位信息对应的是原像素点的运动角度,也就是像素点的运动方向,同一运动方向的像素点,表示的是同类运动;

5)对同类运动进行规范化表述;

 

5.本文用Bhattacharyya相似性度量方式,计算模板与视频块的相似性,其中S、T表示模板与视频的时空表示;


公式(7)


6.由于模板中不同区域对识别准确性的贡献度不相同,因此添加不同的权值对识别的效果有进一步提升,w表示加权:


公式(9)


结果M(x)为0到1分布的量,该数值量越小表示相似度越小,0表示模板与视频块完全失配,两者不存在相似性。

 

三.实践结果:


识别跳步、旋转、下蹲 与 向左走、向右走、挥手:

 

【本文待思】

如果将一类相同的点作为团块,将其放到时空立方体中,作为模板块进行模板匹配,识别行为,那么改变构造模块的方式,就能实现,识别特征的创新;

快速运动仅存在于有氧运动之中,但有氧运动近似认为是静止背景。而复杂背景的行为,为走路,走路行为目标运动速度较慢,因此,在高速运动且背景复杂的环境下的识别能力,本文不能给出较有力阐明。

 

0 0