[深度学习论文笔记][ECCV16]Laplacian Pyramid Reconstruction and Re nement for Semantic Segmentation

来源:互联网 发布:hive是数据库吗 编辑:程序博客网 时间:2024/05/17 03:28

[ECCV16][LRR]Laplacian Pyramid Reconstruction and Renement for Semantic Segmentation

Golnaz Ghiasi & Charless C. Fowlkes
from University of California, Irvine

paper link

Intuition:

这篇文章主要研究两个出现在图像语义分割模型中的问题:

  1. 低分辨率的高层特征是否丢失了大量的空间位置信息。pooling使空间分辨率缩小,但是像素的位置信息可能蕴含在变多的channel里。
    这一点也在[1]中进行了研究。作者使用RNN从高层特征(e.g. pool5)的1x4096维向量中回归出视野域内的bounding box坐标。
    解决方法:提出一种reconstruction模块代替直接的上采样。
  2. 不同层特征融合方法的问题。concatenate使得特征维度变高,模型更加复杂。而相加(Sum)使得包含在channel内的位置信息损失,而且底层特征会为高层特征带来噪声。
    解决方法:提出一种从拉式金字塔启发的融合方法。

Reconstruction:

image
reconstruction(右图)和upsample(左图,FCN采用的方案)的区别:

  1. 卷积时reconstruction模块使用更大的卷积核来模拟高阶插值算法要考虑周边信息;
  2. reconstruction卷积出来KxC个channel,C为类别数,用K个channel来存储低分辨率像素的空间信息,用以分辨率重建,K=10最佳;
  3. 反卷积时reconstruction只在本类的K个channel中操作
  4. reconstruction的反卷积参数通过PCA训练来初始化(文章似乎并没有解释清楚PCA的训练过程)

Laplacian Pyramid:

image
网络高层特征富含语义信息,低层特征更多是结构信息。在本文提出的特征融合策略中,高层特征的预测输出通过一定方法(类似于拉式金字塔的做法)得到边缘的区域,然后从低层特征的预测结果中拿出这部分和高层输出结合在一起。即:大范围的语义信息取自高层特征,边缘信息取自低层特征。

问题:低层预测将边缘分错了类怎么办

Reference:
[1] End-to-end people detection in crowded scenes, M. Andriluka, R. Stewart and A Y. Ng, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 06/2016, (2016)

阅读全文
0 0