ParseNet论文解读

来源：互联网发布：广联达市政预算软件编辑：程序博客网时间：2024/06/06 01:43

导言

其实图像语义分割和目标检测如果对比起来看到话，基本上是一样的任务。目标检测需要定位目标并找到最准确的框，而语义分割是把目标分割出来。由此可见，语义分割是比目标检测更困难的任务。有时候并不需要分割出目标，只需要框出来就可以了，比如行人检测，就不一定要把它分割出来，所以目标检测的算法用途也很广泛。如果对比目标检测和语义分割的论文的话，基本上是面对着相似的问题。ParseNet和SSD是同一个作者做的，也有很多相似之处。

ParseNet论文题目就说出了它是使用了更大的感受野这个特点。
这里写图片描述

Global Context

作者用一个滑动的噪声去干扰输入图像，观察网络的输出，用来探测一个网络的有效感受野具体有多大。这是个不错的想法，因为论文大都是以核等参数反推出感受野，但是真正有效的感受野到底有多大呢？作者实验发现，理论上VGG的fc7应该有 404×404的感受野，但是实际上只有图像的 1/4。
作者发现，使用一个Gobal Pooling可以显著特高感受野，也可以提升分割效果。

EARLY FUSION AND LATE FUSION

这个问题也挺有趣的，特征有两种融合方式，一个是早期融合，然后放入分类器一起分类，另一种就是晚期融合，就是分类后再融合。如果没有额外的处理，则两种方式是一样的。一般来说，早期融合可以很好利用更多特征，这个是晚期融合做不到的。但是作者发现，如果加入了L2正则，那么他们是相似的。

但是做特征融合的时候一定要注意的是不同层的数据scale是不一样的，所以需要正则化才能融合。而且需要注意的是不同层的数据尺寸也不同啊，所以也不能够直接融合。所以，作者使用了 L2 norm.

L2 Norm Layer

尽管可以通过直接融合不同层，然后进行学习以改善不同scale的问题，但是这种方法仍然太过生硬，而且对于fine-tuning来说很难做好。所以作者提出使用 L2 norm，然后在对正则化后的数据进行scale。这个思想是不是和BN很相似啊？？？

好了，基本思想就是这样，剩下就是实验细节了。

0 0