动作识别之STIP(Space-Time Interest Point)（五）

来源：互联网发布：剑灵灵女最美捏脸数据编辑：程序博客网时间：2024/06/06 08:54

转载出处：http://blog.csdn.net/jyfan91/article/details/43374147

读 I. Laptev, M. Marszałek, C. Schmid, and B. Rozenfeld. Learning realistic human actions from movies. In CVPR, 2008.

这篇文章的目的是提出一种在现实和多变的视频中识别动作的方法。鉴于手动标注视频有很大的困难，作者提出一种在电影中对人体动作类型进行自动标注的方法。这种方法是基于script alignment and text classification来对动作进行标注的。另外作者还把空间金字塔模型扩展成了时空金字塔。下面介绍时空金字塔。

首先，使用Harris角点检测器检测兴趣点。

然后，用多尺度的方法在多个时空尺度上提取特征 $(\sigma _{i}^{2},\tau _{j}^{2})$ ，其中， $\sigma _{i}=2^{(1+i)/2}$ ， $i=1,...,6$ ， $\tau _{j}=2^{j/2}$ ， $j=1,2$ 。

每个兴趣点周围的volume的大小 $(\Delta _{x},\Delta _{y},\Delta _{t})$ 与检测尺度有关，其中 $\Delta _{x},\Delta _{y}=2k\sigma ,\Delta _{t}=2k\tau ,k=9$ 。每个volume被划分成为 $(n_{x},n_{y},n_{t})$ 个cuboid，其中 $n_{x},n_{y}=3,n_{t}=2$ 。在每个cuboid内计算HoG和HoF，把归一化好的方向直方图向量串联起来就构成了最终的descriptor （HOG+HOF）。

最后的到在KTH数据集上最好的识别率为91.8%，所用的descriptor以及 $(n_{x},n_{y},n_{t})$ 的大小为HoF(1*1*2)，(1*1*3)。

0 0