Large Kernel Matters —— Improve Semantic Segmentation by Global Convolutional Network论文阅读

来源：互联网发布：淘宝千牛是什么编辑：程序博客网时间：2024/06/09 22:59

Abstract

最近网络设计的趋势是堆叠小的核在整个网络中，因为堆叠小的核比大核更有效，而且计算量更少。然而，在语义分割领域，我们需要密集像素预测。我们发现大的卷积核起着很重要的角色在分类任务和定位任务中。我们提出Global Convolutional Network。我们也建议使用残差边界refine获得更好的目标边界。

1. Introduction

语义分割可以看做一个像素点分类问题。这个任务有两个挑战：
1、分类
2、定位
好的设计模型同时处理这两个问题。

然而，这两个问题是相反的。对于分类任务，模型需要稳定对于变化的形式，如翻译、回转。但对于定位任务，模型需要转换敏感。例如，精确定位每个像素对于每个分割类别。常规的分割算法主要目标是定位，这可能降低分类的效果，如图。

这里写图片描述

这篇论文中，我们提出提升的网络架构（Global Convolutional Network (GCN)），来同时解决上面提出的两大挑战。我们遵循两个设计原则：
1、从定位观点看，模型架构为全卷积来保留定位表现并且没有全连接和全局池化。
2、从分类角度看，大的卷积核应该被应用在网络中使得可以在特征图和像素分类密集，这提升了处理不同变形的能力。
这两大原则导致了我们的GCN，如图

这里写图片描述

FCN类型框架是我们的基础。为了获得实际的全局卷积，我们使用对称的、分开的大过滤器来减少模型的参数和计算损失。为了更进一步提升定位能力在目标边界，我们提出边界提炼模块来模型化边界对准作为残差结构的一部分。不同于CRF这样的后处理，我们的边界提炼模块是整合到网络中，训练端对端的。

我们的贡献总结如下：
1、我们提出Global Convolutional Network为了语义分割，这显式同时解决分类和定位问题。
2、边界提炼模块可以更进一步提升目标边界的定位表现。

这部分我们快速浏览语义分割的文章。第一个最著名的就是FCN，把全连接换成了全卷积。在FCN基础上，一些工作提升了分割性能，主要是三个方面：
1、Context Embedding：很热门的语义分割方向，Zoom-out提出手动分层上下文特征，ParseNet加入全局池化分支来提取上下文信息。空洞卷积网咯在热力图只有加入多层来嵌入多尺度上下文。DeepLabV2使用空洞空间金字塔池化，组合卷积，来提取。
2、Resolution Enlarging：两一个语义分割方向，起初，FCN提出反卷积操作来增加小的热力图的分辨率。进一步，DeconvNet 和 SegNet介绍unpooling操作学习上采样过程。最近，LRR提出上采样特征图比分数图更好。代替学习上采样过程，DeepLab和Dilated-Net提出特别的空洞卷积来直接增加小特征图的空间尺寸，产生一张大的分数图。
3、Boundary Alignment：提炼预测的目标边界。在这些众多的方法中，CRF因为其好的数学特性，DeepLab直接利用denseCRF，这是一种建立在全卷积图上的CRF变量，作为CNN后处理方法。CRFAsRNN方法模型化denseCRF到RNN风格的操作，提出端对端的管道，然而它涉及了太多的CPU计算。DPN提出不同的方法在denseCRF并且把所有的管道都放到GPU中。此外，Adelaide深度合并CRF和CNN在手动精雕细琢潜力被卷积核非线性代替。这里还有一些可选择的CRF。目前一个小的CRF，叫做Bilateral Solver，实现了10倍速度和比较表现，介绍bilateral过滤器来学习特别的成对潜力，使用CNN。

不同于这些以前的工作，我们认为语义分割是分类任务在大的特征图上并且我们的全局卷积网络可以同时满足分类和定位的要求。

3. Approach

这部分，我们首先提出新的全局卷积网络来处理相反的两方面–语义分割中的分类和定位。接下来使用GCN框架来完成语义分割任务。

3.1. Global Convolutional Network

语义分割或者像素级分类的任务需要输出分数图，为输入图的每个像素分配一个类别标签。正如在Introduction部分提出的，这个任务有两个挑战：分类和定位。然而，我们发现分类和定位的需求是相反的：（1）对于分类任务，模型需要在输入上保持变形不变性–目标可能翻转、尺度变化但分类结果是不变的。（2）对于定位任务，模型需要对变形敏感，因为定位结果依赖于输入的位置。

在深度学习中，分类和定位的不同导致不同风格的模型。对于分类任务，大多数模型框架如AlexNet，VGGNet，GoogleNet或者ResNet使用“Cone-shaped”网络结构，如图1A：特征提出从小的隐层中，这是的空间维度粗糙，分类是密集连接的对于整个特征图通过全连接层或者全局池化。这使得局部分布和低层分类处理起来困难对于输入的形式。对于定位，相反，我们需要联系大的特征图来编码更多地空间信息。这就是为什么大多数语义分割的框架，如FCN，DeepLab，Deconv-Net，使用‘Barrel-shape’网络结构，如图1B。如反卷积，上池化和空洞卷积等技术被用来产生高分辨率特征图。分类器连接局部为每个空间局部产生像素级语义分割标签。

我们注意到目前的最好的语义分割模型主要跟随定位设计的原则，然而，这对于分类来说就不是一个好的选择。因为分类连接局部而不是全局特征图。对于分类来说，处理输入图不同的形式的变化是困难的。如图3：

这里写图片描述

一个分类器对准一个输入目标的中间，因此这期待给予目标一个分类类标。起初，有效感受野比目标大。然而，如果目标改变了大小，有效感受野只捕捉到目标的局部，这可能对于分类是不利的。当大的特征图被使用时，这可能是有害的，因为在分类和定位任务上的差异变得巨大。

基于以上观察，我们试着设计一个新的结构来克服缺陷。首先从定位角度看，结构必须不能有全卷积并且不能有任何的全连接或者全局池化层。因为这些操作之后会丢弃局部特征。第二，从分类的角度看，通过密集连接框架分类器模型，核尺寸应该越大越好。尤其是，如果核尺寸增加到整张图的大小。基于这两个原则，我们提出新的全局卷积网络，如图2B。不是直接采用大的核或者全局卷积，我们的GCN模型使用1 × k + k × 1 和k × 1 + 1 × k卷积，是的密集卷积可以到达 k × k区域。不同于分开使用卷积核，我们不适用任何非线性操作在卷积层之后。而我们的参数量和时间复杂度明显降低。

3.2. Overall Framework

我们的模型如图2。我们采用预训练的ResNet作为特征提取的网络并且FCN4作为分割网络。多尺度特征图提取网络框架。全局卷积网络结构使用产生多尺度分割分数图对于每个类别。低分辨分数图将使用反卷积层来上采样，接着加入到高层特征产生新的分数图。最终的分割结果将产生在最后一次上采样后产生。

补充，我们提出边界提炼模块如图2C。我们的模型使用残差结构实现边界对准。More specifically, we define S ˜ as the refined score map: S ˜ = S + R(S), where S is the coarse score map and R(·) is the residual branch. The details can be referred to Figure 2.

自己的思考

这两挑战是什么意思

分类要求感受野越大越好，最好是整张图片的这样类别肯定在里面。
定位要求感受野小一些，这样才能精确定位到某个目标。

解决分类

使用对称的分开的大的卷积核处理图像。利用多尺度多层融合和GCN模块融合得到分类结果

解决定位

采用边界提炼模块模型化边界对准作为一种残差结构。

阅读全文

0 0

Large Kernel Matters —— Improve Semantic Segmentation by Global Convolutional Network论文阅读

Abstract

1. Introduction

2. Related Work

3. Approach

3.1. Global Convolutional Network

3.2. Overall Framework

自己的思考

这两挑战是什么意思

解决分类

解决定位