《Fully Convolutional Network for Semantic Segmentation》的阅读分享

来源：互联网发布：ubuntu防火墙编辑：程序博客网时间：2024/04/29 23:21

《Fully Convolutional Network for Semantic Segmentation》这篇文章是cvpr2015年关于利用全卷积网络做语义分割的一篇文章。这也是我阅读的关于深度学习方面的第一篇paper；

本文的创新点是提出一种Full Convolutional Network的方法对任意size的输入利用有效的推理和学习产生相应尺寸的输出，并解释了它在对空间像素点预测上任务的应用。作者利用当前的分类网络（AlexNet,the VGG net and GoogLeNe）在Full Convolutional Network在上进行了学习和微调（fine-tuning）进行语义的分割，然后定义了一种新颖的architecture——“skip architecture”。
首先进行Fully convolutional networks的介绍，典型的识别网络包括LeNet,AlexNet等等都是采用固定尺寸的输入产生非空间性的输出，（可能只是一个向量）。这些网络的全联接层具有固定的维度而丢弃了空间坐标；然而其实它的这些全连接层可以被改为与一个kernel做卷积覆盖整个的输入的区域，这样做就构成了Fully convolutional network，从而可以实现对任意size图像的输入和相应size的输出。见Figure2. 这里写图片描述
介绍几种其他的dense prediction方法：
1）“ shift-and-stitch trick.”
Input shifting and output interlacing是一种从coarse层不进行插值直接预测像素值得一种小trick，这样一来，产生预测的像素结果就和感受野中间的像素相关。但是本文没有采用，因为通过上采样（upsampling）进行skip层的融合对最后像素的prediction结果更直接、高效。（后面会介绍）
2）“Patchwise training”，采用Patchwise training的采样能够修正类别失衡，能够缓和dense patch间的空间相关性。在 fully convolutional training中，类别平衡也能够通过损失的加权来完成，并且损失采样能够处理空间的相关性。
上面介绍了一些简单的dense prediction的一些思路，下面主要介绍本文的Segmentation Architecture——“Skip Architecture”；
我们建立一种新颖的跳跃式的构建（skip architecture）综合利用粗糙的（coarse）语义（semantic）以及局部（local）和表层（appearance ）的信息来改善预测结果。
具体的做法是，将传统的深度网络层（CNN）做以下的改进：去掉最后的 pooling 层，转变为对所有的全联接做卷积，也就是利用双线性插值的方法做下采样，并且利用BP算法根据Ground truth的先验标签进行Fine-tuning。这种方式对于密度预测学习有着快速有效的优势。
这种架构的联接细节：（根据 Figure3），
因为 pool 的层次越少，保留下来的细节就越多。
首先从最后一个 pooling 层采用 32x 下采样（FCN-32s）进行预测；
另外，将倒数第二个 pooling 层（pool4），与 pool5 相互融合，进行 16x 的下采样（FCN-16s），预测更多的细节；
最后直接从 pool3 层进行幅度为 8 像素的插值进行下采样，继而做更深的像素预测。
下面Figure 4是几次融合的不同效果，很明显FCN-8s的效果最好基本上已经接近Ground truth的效果了。
下面的Table2是 skip FCNs 在PASCAL，VOC2011数据集上验证的结果比较。 Table 2

下面是其他的几组对比实验的结果，
Table 3.fully convolutional net gives a 20% relative improvement over the state-of-the-art on the PASCAL VOC 2011 and 2012test sets, and reduces inference time.
Table 3

Table 4. Table 4

其中RGB-D是在三原色的基础上加了Depth信息。
RGB-HHA是在三原色基础上加了水平视差、距离地面高度、曲面法线与重力方向的角度三个参数。

Table 5. SIFT Flow上类别分类和几何分类的几组对比结果.
Table 5 .

以上就是我想总结的几点关于这篇文章的介绍，因为刚刚接触，所以很多错误的地方欢迎大家帮忙指正，共同交流共同进步。

0 0