通过多视融合的人体姿态估计

来源:互联网 发布:js将图片转化为base64 编辑:程序博客网 时间:2024/03/29 13:44

原文 http://blog.sina.com.cn/s/blog_6bbd2dd1010159nj.html

本文是关于下面这篇文章的读书笔记:

Zhao, X., Fu, Y., Ning, H., Liu, Y., & Huang, T. S. (2010). Human pose regression through multiview visual fusion. Circuits and Systems for Video Technology, IEEE Transactions on, 20(7), 957-966.

 

这篇文章在人体姿态估计中并不算经典,仅被引用四次。讨论班我被分到这篇文章,主要是以介绍回归模型的应用为目的。

 

人体姿态估计常用的方法从概率模型的角度可以分为两大类:生成方法和判别方法。生成方法遵循嵌入自下而上的贝叶斯准则框架中的“预测-匹配-更新”理念,使用观测似然或代价函数建模状态的后验密度,这类方法可以处理未知和复杂的运动,但由于不可避免地需要在高维状态空间搜索,所以计算量很大。判别方法直接建模在观测值条件下状态的后验分布,这类方法一般是基于训练样本、通过寻找从图像特征空间到姿态标签空间之间的直接映射关系构建的,一旦训练过程完成,姿态估计则代入直接计算,高效。这篇文章采用的是判别方法。

讨论班の通过多视融合的人体姿态估计

上图是本文实现的系统的整体流程图。主要包括特征提取、姿态估计和性能评价三个部分,下面简单介绍一下特征提取,重点介绍利用回归建模的姿态估计。

 

(一)特征提取

本文的特征计算步骤如下:

1)人体检测:利用背景减法确定输入图像中人体所在的方框,并将其缩放到固定尺寸;

2)兴趣点检测:在上述方框区域内检测Harris角点;

3SIFT特征提取:上一步检测到的兴趣点用SIFT描述子描述,记作p

4CP-SIFT特征表示:计算每个兴趣角点的相对坐标(u,v)。

 

到此,每个兴趣点都表示为d=(u,v,p)^T(上标T表示转置)。

 

接下来,将所有训练图片提取出的描述子通过K-means聚类,得到k个聚类中心,即视觉码字,形成码书C={c1,c2,…,ck}。本文将k设为60。形成码书后,每幅图像包含的描述子通过计算到各个码字的距离进行投影(软投票),最终每幅图像的特征就是一个k维的向量,即bag-of-words的方法。

 

(二)姿态回归

变量说明:

讨论班の通过多视融合的人体姿态估计

下面是建模的具体过程(偷懒贴了几张当时讲的PPT):

非参回归:高斯过程回归
讨论班の通过多视融合的人体姿态估计

这里之所以将高斯过程回归看作非参回归,是因为回归模型中定义的函数fi是跟训练数据直接相关的,也即,模型参数的个数是随着训练数据的增加而增加的,也即,模型不能用有限的参数描述。

上一篇博文提到,CV那本书中给出的高斯过程回归的概念是很泛的,只要是用核函数替代非线性回归中zi和zj的内积项,则称为高斯过程回归。


讨论班の通过多视融合的人体姿态估计
讨论班の通过多视融合的人体姿态估计

训练得到超参数后,对于新来的测试图像,有上面最后两个式子计算均值和方差,代入回归模型,则得到预测状态y。

 

本文最后通过多线性回归对不同回归算法在姿态估计任务上的性能做评估。

0 0
原创粉丝点击