Fast single shot detection and pose estimation 论文笔记

来源：互联网发布：怎样找淘宝一件代发编辑：程序博客网时间：2024/06/06 03:13

论文实在SSD论文的基础了，做了简单的改动。主要观点是建立了一个卷积网络以提供检测和视角（pose）估计。

数据集

使用的数据集有两个，一个是Pascal 3D+ Dataset, 数据下载链接http://cvgl.stanford.edu/projects/pascal3d.html。
这里写图片描述
另外一个是使用RGB摄像机采集的日常环境图片

流程

这里写图片描述
输入图片，经过一个SSD网络，得到bounding box, 类别和角度估计。

三个设计

（1）将角度空间离散为Nθ个bins，将pose estimation问题转变为一个classification问题。这样可以产生pose和每一个可能的pose对应的confidence。
（2）是否单独预测每一类的pose，也就是是否使用相同的网络预测所有的pose。实验结果表明使用同一个网络预测所有类别的pose，mAVP更高
（3）输入的size，300*300或者500*500。500*500获得的mAVP高，但是增加了时间消耗。

模型

这里写图片描述
在SSD的基础上，将每一个pose当做是一个类别添加到conf的输出中。
损失函数在之前SSD损失函数的基础上添加关于pose的损失函数，损失函数的计算与class相同，使用softmax。

评价指标

AP—标记拥有正确的类别标签，并且IoU>0.5的bounding box
AVP—标记拥有正确的类别标签和角度标签，并且IoU>0.5的bounding box
整个网络比较简单。

阅读全文

0 0