Full-Resolution Residual Networks for Semantic Segmentation in Street Scenes（FRRN））

来源：互联网发布：正版凯立德导航软件编辑：程序博客网时间：2024/06/17 23:46

论文：https://arxiv.org/abs/1611.08323
代码：https://github.com/TobyPDE/FRRN

摘要

语义图像分割是现代自动驾驶系统的重要组成部分，因为对周围场景的精确理解对导航和行动规划至关重要。

论文提出了一种新的ResNet类架构，展现出强大的定位和识别性能。通过在网络中使用两个处理流，将多尺度上下文与像素级准确性结合在一起：一个流以全图像分辨率传输信息，从而能够精确分割边界。另一个流经历一系列池化操作以获得用于识别的鲁棒特征。这两个流在全图像分辨率下使用残差进行耦合。没有额外的处理步骤，也没有进行预训练。我们的方法在Cityscapes数据集上获得了71.8％的IOU分数。

1 引言

当前最先进的图像分割方法都采用某种形式的全卷积网络（FCNs）[38]，将图像作为输入，并输出每个类别的概率图。许多论文都依赖于已经被证明成功的网络架构，如ResNet [25]或VGG架构[50]的变体，从预训练的网络开始。然而，使用这种预先训练好的网络的一个主要限制是它们严格地限制了新方法的设计空间，因为BN或新的激活函数等新的网络元素往往不能被添加到现有的体系结构中。

当使用FCN进行语义分割时，常用策略是使用pooling操作或stride卷积连续减小特征图的空间大小。这样做有两个原因：首先，它明显增加了感受野的大小，其次，它使得网络对图像中的小变换具有鲁棒性。虽然pooling操作对于识别图像中的目标是非常理想的，但是当应用于语义图像分割时，使得网络输出的分辨率较低，显着地恶化了网络的定位性能。现存的几种解决方法包括：（1）论文 Learning Deconvolution Network for Semantic Segmentation 学习一个镜像VGG作为解码器
（2）论文 Multi-Scale Context Aggregation by Dilated Convolutions 引入扩张卷积来减小预训练网络的池化因子
（3）论文 Laplacian Reconstruction and Refinement for Semantic Segmentation多尺度预测，更好的预测边界
（4）skip connections，这些连接允许信息从早期的高分辨率图层直接传播到更深的图层

这里写图片描述
图1

蓝色的残差线反映了高分辨率的流。它可以与经典的残差单位（RU）以及我们新的全分辨率残差单位（FRRU）相结合。红色线的FRRU作为蓝色流的残差单位，也经过pooling操作，通过网络传送高级信息。这导致一个网络连续地结合和计算两种分辨率特征。

我们的方法是通过单独的高分辨处理流来保持整个网络中的高分辨率信息。

2 最近的工作

许多方法将平滑操作应用于CNN网络的输出，以获得更加连续的预测。常用的平滑操作的方法包括：（1）条件随机场CRF；（2）域变换 domain transform；（3）基于超像素的平滑。
论文所采用的方法能够快速的组合高分辨率和低分辨率的信息，可以实现平滑的输出预测，因此不需要额外的平滑操作。

3 用于分割的网络模型

全分辨率残差网络（FRRN）
这里写图片描述
在本文中，提出了与ResNets具有相同优越训练属性但具有两个处理流的全分辨率残差网络（FRRN）。一个流上的特征，即残差数据流，是通过添加连续的残差来计算的，相当于低级特征，而另一个流上的特征，即池化数据流，是应用于输入的一系列卷积和池化操作的直接结果，相当于高级特征。

FRRN由一系列全分辨率残差单位（FRRU）组成。每个FRRU有两个输入和两个输出。令zn-1为第n个FRRU的残差输入，并令yn-1为其池化输入。然后输出计算为：
这里写图片描述

第m个残差单元的输出为：
这里写图片描述

那么损失l对权重Wn的导数为：
这里写图片描述
因此，权重更新取决于三个信息来源。第1和第3项与深度n有关，而第2项与深度无关。因此，我们为残差函数H使用的所有参数实现了与深度无关的梯度流。如果我们使用这些权重中的一些来计算G的输出，那么单位的所有权重将受益于改进的梯度流。这很容易通过重用G的输出来计算H.然而，我们注意到其他设计是可能的。（不懂）

这里写图片描述

上图显示了我们提出的FRRU设计。该单元首先通过池化层减小残差流的大小，以便将两个输入流连接起来。然后串联的特征通过两个卷积单元馈送。每个卷积单元由一个3x3卷积层、BN层以及ReLU组成。第二个卷积单元的结果有两种使用方式。首先，它形成网络中下一个FRRU的池化流输入，其次它是计算残差的基础。为此，我们首先使用1x1卷积来调整特征通道的数量，然后使用unpooling层来升高空间维度。我们发现通过沿空间维度重复进行简单的放大来执行优于双线性内插。

这里写图片描述
上图显示了我们用来评估我们方法的分割性能的两种网络架构。根据输入图像的分辨率，我们使用FRRN A或FRRN B来保持感受野的相对大小一致。

4 训练

损失函数：这里写图片描述
通过对预测对数概率进行排序，并选择第k+1个值作为阈值tk。选择K个分类错误的像素或者预测的小概率的分类正确的像素。论文使用Adam优化器。

数据增强：平移增强（随机翻转图像）和伽马增强

5 试验评估

数据集：Cityscapes benchmark（2975训练、500验证、1525测试，图像大小为1024*2048）

网络：FRRN_A（输入为256*512） FRRN_B（输入为512*1024），对网络的输出使用双线性插值进行上采样，以得到最终的分割结果。

训练参数：batch_size=3，45000代，前35000次学习率为0.001，后10000次学习率为0.0001。

这里写图片描述

阅读全文

0 0