论文阅读-《DSSD : Deconvolutional Single Shot Detector》

来源：互联网发布：windows 找不到aero 编辑：程序博客网时间：2024/05/17 08:22

arxiv 23/1/2017

SSD作者Wei Liu的新作

Motivation

通过增加context的信息来提高目标检测的准确率是一个常见的方法，在SSD当中，作者没有利用到context的信息，因此，作者在DSSD里面尝试通过加入context来改善SSD的性能

Framework

dssd
上图表示SSD的基本结构，采用的是VGG作为base network，后来有作者新加的SSD layer，然后在选择的多尺度的feature map上做预测.

下图表示DSSD的基本结构，采用的resnet-101作为base network，后面是新加的DSSD layer，整个DSSD采用的是hourglass（也就是encoder-decoder）的结构，low-resolution的feature map作为context，通过deconvolution和前面encoder部分2x resolution的feature map进行融合（deconvolution module），然后通过一个更好的prediction module来做预测（SSD直接预测）

Prediction Module

dssd
作者尝试了这么四种prediction module，其中(a)是SSD用的，直接在feature layer上预测
(b)是设计成residual block的预测模块
(c)相对比就是把identity mapping换成了1x1卷积
(d)是stacked (c)

Deconvolution Module

dssd
这个是作者设计的deconv分支，作者把上面的deconv分支设计成一个比较浅层的模型，是考虑到inference的时间以及随机初始化参数太多不好训练

Experiment

训练的时候需要注意的是，作者用训练好的SSD来初始化DSSD的卷积层，然后固定卷积层参数，只训练后面的反卷积模块。

dssd
这个是在PASCAL VOC2007上的测试结果，当输入的图像尺寸比较小的时候，直接把vgg换成resnet效果反而会下降，但是如果提高输入图像的尺度的话，把vgg替换成resnet-101效果会更好，作者解释说对于resnet这样非常深的网络，需要更大的尺度输入来让深层的feature map仍然保持空间信息。更重要的是，DSSD比对应的SSD的效果要更好，这说明作者的设计是合理有效的。特别是对于那些具有特定背景信息的物体和小目标。比如对于飞机（背景-天空），牛羊（背景-草地），小目标比如bottle，DSSD的效果都要更好一些。

inference time

dssd
当然，因为把vgg换成了resnet，后来还有新加的prediction module和deconvolution module，DSSD要比SSD慢很多。

总的来说，DSSD通过encoder-decoder的网络结构，将high-level的context信息更丰富的feature map和low-level的feature map进行融合，在两类目标上的检测效果有所提升：第一是小目标以及dense objects，第二是具有显著区分度背景的目标。

阅读全文

0 0