RGB图像语义分割前沿:CRF as RNN

来源:互联网 发布:求仁得仁 又何怨乎 编辑:程序博客网 时间:2024/05/16 19:31

1. 目标

本文的目标是 Pixel-level labelling

一张N个像素的图片,像素标号

{1,2,,N}

标签集合
={l1,l2,,lL}

我们的目标是,给每个像素分配一个其所属的标签。

2. 思路

在2012年之前,CRF是这个领域最先进的技术。
2012年之后,深度学习在图像识别中取得了很大成功。

想办法把二者的优势结合起来。

3. 简述

本文所述方法有三个要点:
1. 用训练的方式求解CRF。
2. 把CRF挂在一个FCN后边,一起训练。
3. 求解CRF时,用独立分布近似真实分布,其算法可以包装成一个RNN。
这里写图片描述

4. 正文详解

4.1 Introduction

我们的目标,是实现像素级别的语义分割,即给每个像素标注一个标签。对于这个任务,Features的设计,对于标准的准确程度有至关重要的作用。引用论文中的一句话:Designing a strong feature representation is key for the problem.

而深度学习所解决的重大问题之一,就是自动选取高质量的Features。因而,利用CNN替代手工选取特征,来增进语义分割的效果,很自然地成为了本文思路的起点。

实现目标,Feature很重要,选取好的Features也很重要。
Designing a strong feature representation is key for the problem.

这个路线是如此的明朗,预期的收益是如此的诱人,所以早已有研究者先行一步了。FCN和DeepLab是其中优秀的代表。

FCN开辟了卷积网络用于像素级语义分割的新思路,为CNN与CRF结合提供了必要的技术基础。但其输出的分割结果比较边界粗糙。

DeepLab使用CRF来改进FCN的结果。但是CRF只作为一个后处理工具,不参与训练,所以不能发挥出CRF的全部威力。

本文在上述结果的基础上,设计了一个End-to-End的网络,将FCN和CRF融合进了一个网络中,同时训练。从而解决了上述短板。

4.2 相关工作

本文的几个关键点,都涉及一些前面的工作。

  • 使用CNN获得Classification Map,主要来自于FCN论文以及更早的 D.Eigen, C.Puhrsch, and R.Fergus. Depth map prediction from a single image using a multi-scale deep network. In NIPS, 2014.

  • 用CRF来优化CNN结果Map的路子在几篇文章中都有应用。主要有:

    1. DeepLab,
    2. S.Bell, P.Upchurch, N.Snavely, and K.Bala. Material recognition in the wild with the materials in context database. In IEEE CVPR, 2015.
    3. G.Papandreou, L.-C.Chen, K.Murphy, and A.L.Yuille. Weakly and semi-supervised learning of a dcnn for semantic image segmentation. In arXiv:1502.02734, 2015
  • 用训练的方式求解CRF。相关文章很多,本文作者主要参考了Philipp Krähenbühl的两篇文章,相关文章可从论文引文列表获得,这里不再赘述。

4.3 关键步骤

网络结构

网络结构是前边一个FCN,后边挂上一个CRF-RNN,一起训练。第三大部分中的图展示了这个结构。

难题

对于每次迭代来说,FCN出来的是分类的Map,之后要求解CRF。CRF求解由于计算量太大,只能用估计的方式。所以,关键问题是:第一,如何估计?第二,如何在一个迭代里能够自动地求出CRF的结果?

作者利用Krähenbühl文章的算法,求解CRF。他巧妙地将求解步骤,设计成了一个RNN,从而在一个迭代中,能够求出CRF的解。

具体方法

  1. 将Krähenbühl文章的算法,拆解成几个步骤,每个步骤都作为一个CNN的Layer。

这里写图片描述

  1. 将上述堆叠的Layers作为一个大模块,挂载到一个RNN网络结构中。RNN的网络结构如图所示。

这里写图片描述

  1. 求解CRF的这个RNN网络,又作为整体网络的一部分,挂在FCN网络之后。

这里写图片描述


5. 附录1

FCN:全卷积网络

J.Long, E.Shelhamer, and T.Darrell. Fully convolutional networks for semantic segmentation. In IEEE CVPR, 2015.

这里写图片描述

这篇论文对于二维的像素级图像语义分割来说,是一件开创性工作。通过对网络结构巧妙的但微小的改动,达成了很好的结果。

其思想精髓是:将全连接层看作特殊的卷积层,其核的大小等于输入的区域大小,从而得到一个Classification Map。而Map用来做语义分割是十分自然的。

文中还有其它一些技术,这里不再赘述。后续如有时间会单列文章分析。

总之,这篇文章的贡献是,为CNN与CRF联合使用提供了入口

DeepLab:全卷积网络 + CRF

L.-C.Chen, G.Papandreou, I.Kokkinos, K.Murphy, and A.L.Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. In ICLR, 2015.

这里写图片描述
这篇文献的大致思路是:首先使用FCN训练,得到一个相对粗糙的分割结果。然后在此基础上,用CRF做一个事后的调优。

2 0