论文阅读-《DSSD : Deconvolutional Single Shot Detector》

来源:互联网 发布:windows 找不到aero 编辑:程序博客网 时间:2024/05/17 08:22

arxiv 23/1/2017

SSD作者Wei Liu的新作

Motivation

通过增加context的信息来提高目标检测的准确率是一个常见的方法,在SSD当中,作者没有利用到context的信息,因此,作者在DSSD里面尝试通过加入context来改善SSD的性能

Framework

dssd
上图表示SSD的基本结构,采用的是VGG作为base network,后来有作者新加的SSD layer,然后在选择的多尺度的feature map上做预测.

下图表示DSSD的基本结构,采用的resnet-101作为base network,后面是新加的DSSD layer,整个DSSD采用的是hourglass(也就是encoder-decoder)的结构,low-resolution的feature map作为context,通过deconvolution和前面encoder部分2x resolution的feature map进行融合(deconvolution module),然后通过一个更好的prediction module来做预测(SSD直接预测)

Prediction Module

dssd
作者尝试了这么四种prediction module,其中(a)是SSD用的,直接在feature layer上预测
(b)是设计成residual block的预测模块
(c)相对比就是把identity mapping换成了1x1卷积
(d)是stacked (c)

Deconvolution Module

dssd
这个是作者设计的deconv分支,作者把上面的deconv分支设计成一个比较浅层的模型,是考虑到inference的时间以及随机初始化参数太多不好训练

Experiment

训练的时候需要注意的是,作者用训练好的SSD来初始化DSSD的卷积层,然后固定卷积层参数,只训练后面的反卷积模块。

dssd
这个是在PASCAL VOC2007上的测试结果,当输入的图像尺寸比较小的时候,直接把vgg换成resnet效果反而会下降,但是如果提高输入图像的尺度的话,把vgg替换成resnet-101效果会更好,作者解释说对于resnet这样非常深的网络,需要更大的尺度输入来让深层的feature map仍然保持空间信息。更重要的是,DSSD比对应的SSD的效果要更好,这说明作者的设计是合理有效的。特别是对于那些具有特定背景信息的物体和小目标。比如对于飞机(背景-天空),牛羊(背景-草地),小目标比如bottle,DSSD的效果都要更好一些。

inference time

dssd
当然,因为把vgg换成了resnet,后来还有新加的prediction module和deconvolution module,DSSD要比SSD慢很多。

总的来说,DSSD通过encoder-decoder的网络结构,将high-level的context信息更丰富的feature map和low-level的feature map进行融合,在两类目标上的检测效果有所提升:第一是小目标以及dense objects,第二是具有显著区分度背景的目标。

阅读全文
0 0