[深度学习论文笔记][ECCV16]Laplacian Pyramid Reconstruction and Renement for Semantic Segmentation

来源：互联网发布：hive是数据库吗编辑：程序博客网时间：2024/05/17 03:28

[ECCV16][LRR]Laplacian Pyramid Reconstruction and Renement for Semantic Segmentation

Golnaz Ghiasi & Charless C. Fowlkes
from University of California, Irvine

paper link

Intuition:

这篇文章主要研究两个出现在图像语义分割模型中的问题：

低分辨率的高层特征是否丢失了大量的空间位置信息。pooling使空间分辨率缩小，但是像素的位置信息可能蕴含在变多的channel里。
这一点也在[1]中进行了研究。作者使用RNN从高层特征(e.g. pool5)的1x4096维向量中回归出视野域内的bounding box坐标。
解决方法：提出一种reconstruction模块代替直接的上采样。
不同层特征融合方法的问题。concatenate使得特征维度变高，模型更加复杂。而相加(Sum)使得包含在channel内的位置信息损失，而且底层特征会为高层特征带来噪声。
解决方法：提出一种从拉式金字塔启发的融合方法。

Reconstruction:

reconstruction(右图)和upsample(左图，FCN采用的方案)的区别：

卷积时reconstruction模块使用更大的卷积核来模拟高阶插值算法要考虑周边信息；
reconstruction卷积出来KxC个channel，C为类别数，用K个channel来存储低分辨率像素的空间信息，用以分辨率重建，K=10最佳；
反卷积时reconstruction只在本类的K个channel中操作
reconstruction的反卷积参数通过PCA训练来初始化（文章似乎并没有解释清楚PCA的训练过程）

Laplacian Pyramid:

网络高层特征富含语义信息，低层特征更多是结构信息。在本文提出的特征融合策略中，高层特征的预测输出通过一定方法（类似于拉式金字塔的做法）得到边缘的区域，然后从低层特征的预测结果中拿出这部分和高层输出结合在一起。即：大范围的语义信息取自高层特征，边缘信息取自低层特征。

问题：低层预测将边缘分错了类怎么办

Reference:
[1] End-to-end people detection in crowded scenes, M. Andriluka, R. Stewart and A Y. Ng, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 06/2016, (2016)

阅读全文

0 0

[深度学习论文笔记][ECCV16]Laplacian Pyramid Reconstruction and Re nement for Semantic Segmentation

[ECCV16][LRR]Laplacian Pyramid Reconstruction and Renement for Semantic Segmentation

Intuition:

Reconstruction:

Laplacian Pyramid:

[深度学习论文笔记][ECCV16]Laplacian Pyramid Reconstruction and Renement for Semantic Segmentation