ParseNet论文解读

来源:互联网 发布:广联达市政预算软件 编辑:程序博客网 时间:2024/06/06 01:43

导言

其实图像语义分割和目标检测如果对比起来看到话,基本上是一样的任务。目标检测需要定位目标并找到最准确的框,而语义分割是把目标分割出来。由此可见,语义分割是比目标检测更困难的任务。有时候并不需要分割出目标,只需要框出来就可以了,比如行人检测,就不一定要把它分割出来,所以目标检测的算法用途也很广泛。如果对比目标检测和语义分割的论文的话,基本上是面对着相似的问题。ParseNet和SSD是同一个作者做的,也有很多相似之处。

ParseNet论文题目就说出了它是使用了更大的感受野这个特点。
这里写图片描述

Global Context

作者用一个滑动的噪声去干扰输入图像,观察网络的输出,用来探测一个网络的有效感受野具体有多大。这是个不错的想法,因为论文大都是以核等参数反推出感受野,但是真正有效的感受野到底有多大呢?作者实验发现,理论上VGG的fc7应该有 404×404的感受野,但是实际上只有图像的 1/4
作者发现,使用一个Gobal Pooling可以显著特高感受野,也可以提升分割效果。

EARLY FUSION AND LATE FUSION

这个问题也挺有趣的,特征有两种融合方式,一个是早期融合,然后放入分类器一起分类,另一种就是晚期融合,就是分类后再融合。如果没有额外的处理,则两种方式是一样的。一般来说,早期融合可以很好利用更多特征,这个是晚期融合做不到的。但是作者发现,如果加入了L2正则,那么他们是相似的。

但是做特征融合的时候一定要注意的是不同层的数据scale是不一样的,所以需要正则化才能融合。而且需要注意的是不同层的数据尺寸也不同啊,所以也不能够直接融合。所以,作者使用了 L2 norm.

L2 Norm Layer

尽管可以通过直接融合不同层,然后进行学习以改善不同scale的问题,但是这种方法仍然太过生硬,而且对于fine-tuning来说很难做好。所以作者提出使用 L2 norm,然后在对正则化后的数据进行scale。这个思想是不是和BN很相似啊???

好了,基本思想就是这样,剩下就是实验细节了。

0 0
原创粉丝点击