场景解析--Pyramid Scene Parsing Network

来源:互联网 发布:画图软件使用技巧 编辑:程序博客网 时间:2024/06/10 18:40

Pyramid Scene Parsing Network
CVPR2017
语义分割
https://github.com/hszhao/PSPNet

针对 FCN 中没有 context 信息,本文提出的 PSPNet 网络嵌入了比 global average pooling更好的 global context 信息来提升分割效果

2 Related Work

对于 scene parsing 和 semantic segmentation 任务, 深度卷积网络是目前的主流方法。这里我们的基准网络是 FCN+dilated network。

目前大家的研究方向主要有两个:1)组合利用多尺度特征,2)使用 CRF作为分割后续处理方法。
对于global context 信息,文献【24】使用 global average pooling,但是对于复杂的 ADE20K 数据库,效果不是很好。这里我们使用了另一个 global context 信息

3 Pyramid Scene Parsing Network
3.1. Important Observations
针对 ADE20K 数据库,我们观察到了一些现象:
1)Mismatched Relationship 目标之间应该有一定的相关性
2)Confusion Categories 图像中同一个物体同时被标记为两个类别
field and earth; mountain and hill,wall, house, building and skyscraper
3)Inconspicuous Classes 大目标 小目标问题
综上所述,主要问题在于 contextual relationship and global information for different receptive fields
这里写图片描述

3.2. Pyramid Pooling Module

在一个深度网络中,感受野的尺寸大小决定了我们有多少 context 信息可以用。理论上 ResNet 的感受野尺寸要比输入图像尺寸大。但是文献【42】指出CNN 的实际感受野尺寸要比理论尺寸小很多。文献【24】提出的 Global average pooling 对于复杂的 ADE20K 数据库来说过于简单了。这里我们借鉴 文献【12】Spatial pyramid pooling 提出了 pyramid pooling module 来得到全局先验信息。

这里写图片描述

上图中间模块 pyramid pooling module 第一行 是用 global pooling 生成的 a single bin output
第二行我们将特征图等分为4块,每块分别用global pooling得到 bin output。上图四行分别对应
1×1, 2×2, 3×3 and 6×6

为了维持 global feature 的权值,在每一行我们使用 一个 1×1 convolution layer 来降低 context representation 的维度。接着我们使用 bilinear interpolation 插值,使其和原始特征图尺寸一样大小。最后和原始特征图组合起来。

4 Deep Supervision for ResNet-Based FCN
为了更好的训练网络层数较多的模型,我们引入了 additional loss,another classifier is applied after the fourth stage

The auxiliary loss helps optimize the learning process, while the master branch loss takes the most responsibility. We add weight to balance the auxiliary loss.

Deep Supervision 在人脸识别算法 DeepID2 中已经存在。

5 Experiments
这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

这里写图片描述

0 0