Fast single shot detection and pose estimation 论文笔记

来源:互联网 发布:怎样找淘宝一件代发 编辑:程序博客网 时间:2024/06/06 03:13

论文实在SSD论文的基础了,做了简单的改动。主要观点是建立了一个卷积网络以提供检测和视角(pose)估计。

数据集

使用的数据集有两个,一个是Pascal 3D+ Dataset, 数据下载链接http://cvgl.stanford.edu/projects/pascal3d.html。
这里写图片描述
另外一个是使用RGB摄像机采集的日常环境图片

流程

这里写图片描述
输入图片,经过一个SSD网络,得到bounding box, 类别和角度估计。

三个设计

(1)将角度空间离散为Nθ个bins,将pose estimation问题转变为一个classification问题。这样可以产生pose和每一个可能的pose对应的confidence。
(2)是否单独预测每一类的pose,也就是是否使用相同的网络预测所有的pose。实验结果表明使用同一个网络预测所有类别的pose,mAVP更高
(3)输入的size,300*300或者500*500。500*500获得的mAVP高,但是增加了时间消耗。

模型

这里写图片描述
在SSD的基础上,将每一个pose当做是一个类别添加到conf的输出中。
损失函数在之前SSD损失函数的基础上添加关于pose的损失函数,损失函数的计算与class相同,使用softmax。

评价指标

AP—标记 拥有正确的类别标签,并且IoU>0.5的bounding box
AVP—标记 拥有正确的类别标签和角度标签,并且IoU>0.5的bounding box
整个网络比较简单。

阅读全文
0 0
原创粉丝点击