Paper Reading:Real-time human pose recognition in parts from single depth images

来源：互联网发布：java教材 pdf 编辑：程序博客网时间：2024/06/04 00:04

CVPR 2011
Paper:Real-time human pose recognition in parts from single depth images
Author: Jamie Shotton, Andrew Fitzgibbon, Mat Cook, Toby Sharp, Mark Finocchio, Richard Moore, Alex Kipman, Andrew Blake
Association: Microsoft Research Cambridge & Xbox Incubation
Video: Microsoft

Overview
这里写图片描述
单幅深度图像被分割成稠密概率身体组件标签，组件定义为骨骼关节空间上相近的部分，然后将推理出的组件重新投影到世界空间坐标系，然后局部化每个组件的空间分布模式，形成预测。
对身体组件的分割被看作是逐像素分类问题，对每个像素分别评估。从运动数据库中采样了各种不同的姿势，然后生成深度图作为训练数据，训练了一个深度随机森林分类器。
main contribution: 将姿势估计问题变成了物体识别问题

Data
这里写图片描述
在mocap数据库中建立了一个随机渲染管道，先随机采样一组参数，然后使用标准计算机图形学技术从纹理映射3D网络渲染深度和身体组件图像。

Body Part Inference and Joint Proposals
Body part labeling
用颜色编码表示，一些组件定义是用来直接定位感兴趣的特定骨架关节的，其他的是用来填补身体空白或者通过组合来预测其他关节的。我们的中间表示将问题转化成一个能很容易使用高效分类算法解决的问题。

Depth image features
这里写图片描述

这里写图片描述
对身体的一个给定点，无论它离摄像机近还是远，（特征计算）都会给出一个固定的世界空间偏移。对背景中或图像边界之外的偏移像素，深度探针将给出一个大的正常数。

Randomized decision forests
这里写图片描述
森林是T棵决策树的总体，每棵树都有分支节点和叶子节点。对图像I的像素x进行分类时，从根节点开始不断计算得到特征值，然后根据(特征值)与阈值的比较结果往左或者往右分支。树t的叶子节点存储了身体组件标签c的训练出的分布P
这里写图片描述
每棵树都在一个不同的随机的合成样本库上使用下述算法训练得到

Joint position proposals
a local mode-finding approach based on mean shift with a weighted Gaussian kernel
这里写图片描述
这保证了密度估计是深度不变的，根据身体组件定义不同，可以通过在少数组件集合中预累加得到后验概率。
对于组件c，我们训练出一个概率阈值，所有概率高于该阈值的像素都作为（mean shift）的起始点。当像素权重之和达到每个模式（mode）时就得到了最终的可信估计。检测出的模式（实际上）位于身体的表面。因此，使用训练出的z偏移将每个模式还原到现场（即身体表面）从而产生最后的关节位置预测。

Experiments
这里写图片描述

阅读全文

0 0