论文阅读：《Structured Feature Learning for Pose Estimation》CVPR 2016

来源：互联网发布：我爱摇滚乐知乎编辑：程序博客网时间：2024/05/16 15:37

概述

本文仍然是使用CNN，其创新点在于如何对关节之间的依赖进行建模，解决方法是在卷积层使用几何变换核。此外还提出了双向的树结构模型，这样每个关节的特征通道都可以接受其他关节点信息。

网络架构/算法流程

这里写图片描述

输入是一张RGB静态图片。经过CNN（论文中采用的CNN是VGG Net）,得到和关节个数数量相同的heatmap，然后这些heamap通过信息传递进行refined。信息传递的方式是使用双向树结构，按照图（2，a）的方式进行bottom-up的卷积，此外还按照图（2，b）的方式进行top-down的卷积。最终得到预测的结果。

创新点

1，几何变换核
这里写图片描述

图中a-c表明，对于一个高斯分布的图像，使用不同的几何变换核，是可以得到不同的分布的，说明几何变换核可以改变高斯分布，包括位置和强度。对于右边的d图，e和f分别是它的elbow和arm，可以看到arm的定位比较准确，但是elbow的定位较差，因此作者想到使用几何变换核将arm的位置移动到elbow的位置，以此来学习这种相对位置的变换。将g与e叠加，获得最大的峰值（相当于一个阈值的控制），就有效的去除了多峰值的问题。

2，双向树模型

所谓树模型就是将人体的关节看作是一个树状的模型，在网络结构中采用自下而上和自上而下两种方式进行卷积，采用这种相反方向的传播是为了相互补充。树状图中每个节点具体的计算方式也在网络框架中提出了，带有撇的就是经过处理的。基本也是按照卷积，融合和激活的计算方式。最终的结果就是这样的Ak， Bk的heatmap经过连接，就可以预测第k个关节的heatmap。

2，后处理

之前看的论文都是单人姿态估计，如果图像中出现了多个清晰的人物，也应该对其关节点做一个估计。论文中的具体做法是关节点i和关节点j的位置分别是（xi，yi）,（xj，yj），那么xr = (xi+xj)/2，yr = (yi+yj)/2。那么dx = xi-xj-xr， dy = yi-yj-yr。[dx^2, dy^2]就是距离描述子，它的权重是[0.01，0.01]。

总结

论文最大的贡献就是提出了一个关节点之间依赖的几何变换核，另一个就是提出的树结构能够解决多人姿态估计。本篇论文值得一提主要是因为他在MPII竞赛中曾经排名榜首，不过作者提出的方法在理论上不是那么完善，可能更多的是依靠工程化的方法将成绩刷的较高。不过这种对于人体关节的结构化信息的关注也在CVPR 2017论文《Look into Person: Self-supervised Structure-sensitive Learning and A New Benchmark for Human Parsing》中使用到。
这里写图片描述

阅读全文

0 0