Semantic Segmentation via Structured Patch Prediction, Context CRF and Guidance CRF--论文阅读

来源:互联网 发布:java猜数字游戏1~100 编辑:程序博客网 时间:2024/06/08 11:43

Semantic Segmentation via Structured Patch Prediction, Context CRF and Guidance CRF--cvpr2017 

paper:http://openaccess.thecvf.com/content_cvpr_2017/papers/Shen_Semantic_Segmentation_via_CVPR_2017_paper.pdf

code:https://github.com/FalongShen/SegModel

1. Introduction

语义分割是计算机视觉中一个基本但又困难的问题。与图像分类相比,它提供了对图像的像素化语义理解,通过对象类别、位置和形状来解析场景。深度网络在图像分类任务上取得了一系列突破[18,14,13]。卷积神经网络(CNN)由不同的深度和宽度所控制,提供了强大的模型,并综合多层次的特征和分类器嵌入像素间的统计和依赖关系正确的先验知识为防止过拟合

最近在语义分割方面的进展主要依赖于完全卷积网络(FCN)和条件随机字场(CRF)FCN转变图像分类识别网络通过调整位置感知的特征表示的语义分割[ 24 ]。然而,图像分类深度学习的特征往往是通过对卷积神经网络[13]的分解池层和子采样层来进行目标的平移和变形,从而降低了定位和分离对象与相邻上下文的能力。为了确定目标位置和边界,通常采用双线性上采样操作来检索FCN上的像素- wise预测,这导致了置信程度与频率对应关系的解释模糊。

局部预测解释

FCN进行端到端的训练过程分析中,Sec. 3.1显示softmax分类器产生的分布不仅代表了对对象类别的信任程度(置信度),而且也代表了该patch中该类别的频率。如图1所示,上采样操作中的插值例程似乎对分类分数进行了置信和频率的解释。FCN分类器的训练使用了一个模糊的标准,基于图像区域和训练样本的统计。当在目标边界内插值分类分数和预测困难样本时,这种双重意义的解释最为明显。这个模糊的预测阻止了分割后面部分对复杂的目标形状准确捕获。我们用一种structured patch预测技术来解决这个歧义Sec. 3.

在文献的另一个方向上,概率图形模型已被广泛应用于结构化预测任务。特别地,CRF在语义分割中已经发现了广泛的成功[19,28,17],这要归功于它们在编码高阶条件依赖性的能力上的能力。然而,学习CRF需要许多重复的推理步骤,而且耗时[35,19]。我们的工作重点是将FCN的识别特征与CRF的结构化预测能力相结合,在有效的高阶上下文约束和可伸缩的端到端联合训练效率上进行了重点研究。

兼容上下文

上下文线索表示类别标签之间的空间关系,在结构化预测任务中扮演着重要的角色。我们注意到,上下文线索或高阶信息在对象检测和语义图像分割中至关重要[29,19]。通过最小化吉布斯能量,广泛采用CRF来利用上下文线索进行结构化预测。然而,这些模型由于在梯度下降[35]的每一个更新中对配分函数的推导所花费的时间成本,是相当有限的。与传统的CRF方法相比,自动上下文[29]根据标签上下文编码了一系列分类器的联合统计信息。对于每个分类器,最后一个分类器的输出作为特性使用。自动上下文中尝试递归地选择并将上下文标签用于结构化预测。编码上下文信息的另一个概率是基于特征上下文来学习消息[20,27]。这种特征上下文方法通过叠加一元特征对每一对之间的消息估计进行建模,这与传统的CRF更相似,因为它们都依赖于成对的消息传递。我们通过标签和特征上下文来强化先验结构知识,并提出了一种距离感知的采样和池策略,以降低高阶群的复杂性,正如在Sec4所讨论的那样。

边界引导

低层次的特征,例如图像边缘、纹理和外观同质性常常有助于在对象周围获得清晰和清晰的边界。近年来,基于双边滤波的CRF在边界定位上得到了广泛的应用。结合卷积神经网络的强识别能力,双边CRF在处理物体周围尖锐边界的任务方面取得了显著成功[ 3, 25, 2 ]。另外,Liu et al .[23]提出了一个类似于双边滤波器的滤波器,可以通过局部卷积层有效地处理图形过程单元。我们选择通过引导过滤来增加消息传递[12,11],不仅因为它的边缘保存属性,而且由于它的线性时间复杂度,不管它的内核大小。这导致了一个快速的训练过程,如在sec5所述。

从理论上讲,我们的上下文CRF的学习方法类似于[27,29]中的纠错迭代译码方法,因为我们使用一系列分类器来编码每个节点间的交互,而不是显式的全局概率表示。从平均字段算法中传递消息的另一个视图中,更新边缘分布就是从邻近区域收集消息。因此,有效的消息估计器可以直接模拟区域特征,包括来自估计标签和深度卷积特征的信息。这个等效的消息视图是连接FCNCRF模型的高效解决方案的关键,细节将被讨论如下部分。

本文的主要贡献有四个方面。

我们提出了一种联合目标,将细分特征、高阶上下文和边界指导相结合,实现准确的语义分割。该模型在三个主要的细分基准数据集上达到了领先的性能。

本文介绍了一种用于空间填充的结构化patch预测技术。在将特征抽象保持在相对较高的水平上时,它代替了超平滑的插值操作,部分解决了信频歧义。

在避免高复杂性的代价的同时,提出了一个距离感知的上下文来嵌入标签和特征兼容性。相应的上下文CRF可以在短时间成本的情况下有效地优化,同时带来较大的性能收益。

我们还引入了一个指导CRF来进一步提高分割的准确性。通过引导的过滤增强了消息传递步骤,它允许以端到端方式高效地对整个系统进行联合训练。

Structured PatchPrediction







     whole framework


Conclusion

 The dominantframework of semantic segmentation is FCN + CRF.

 The base modelis important to train a good segmentation model.

 Goodclassification model are Not always good segmentation model.

 Very importantto get rid of over-fitting.

 Oursegmentation model is fast and accurate. It is a good choice to use ourSegModel for semantic image segmentation.


原创粉丝点击