Paper Reading:Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

来源:互联网 发布:it服务外包最大 编辑:程序博客网 时间:2024/06/06 01:05

CVPR 2017
Paper:Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields
Author: Zhe Cao, Tomas Simon, Shih-En Wei, Yaser Sheikh
Association: The Robotics Institute, Carnegie Mellon University
Code:https://github.com/CMU-Perceptual-Computing-Lab/openpose
Video: youku

Overall pipeline
这里写图片描述
整体算法流程如上,输入一幅图像,分成两路用卷积网络提取不同的特征,得到Part Confidence Maps和Part Affinity Fields,得到这两个信息后再使用二分匹配(Bipartite Matching)将同一个人的关节点连接起来,最终合并成一幅完整的骨架。

Method
这里写图片描述
a set of feature maps F ,confidence maps S,Part Affinity Fields L
F是前10层学习到的图像特征,10层之后,网络分成两路,每路在loss之前有5层,在每个stage之后,S及L都和stage1中的F再汇合,作为下个stage的输入

Confidence Maps for Part Detection
图像区域中每个点都有一个confidence值,构成confidence map。每一个body part (j)算一个confidence map。所以有多少个part(关节),就有多少个相对应part的confidence map。
这里写图片描述
假设k个人,图像中每个人都有预测位置的confidence map,将k个人的confidence map的集合合成为一个confidence map时,取该点各个人的confidence的最大值。文章里说这里用max而不用average是为了:即使多个peak点离得很近,精度仍然不受影响。
这里写图片描述
这里写图片描述

Part Affinity Fields for Part Association
同时使用了location和orientation信息
这里写图片描述
每一种limb(肢)在关联的两个body part之间都有一个对应的affinity field ,其中的每一个pixel都有一个2D vector描述方向。
这里写图片描述

这里写图片描述

Multi-Person Parsing using PAFs
这里写图片描述

阅读全文
0 0