【CNNCRF】Efficient Piecewise Training of Deep Structured Models for Semantic Segmentation
来源:互联网 发布:win10 uac 知乎 编辑:程序博客网 时间:2024/06/01 07:58
基本情况
本文是CVPR 2016的文章,领域是Semantic Segmentation.
Abstract
本文展示使用上下文信息提高语义分割.特别的,本文使用图片区域的’patch-patch’的上下文和’patch-background’的上下文.在从patch-patch的学习过程中,本文使用基于CNN的成对势能函数的CRFs来捕获相邻块中的语义相关性.利用本文提出的深度结构模型的高效piecewise训练来避免后向传播过程中CRF预测的消耗.为了捕获patch-background上下文,本文使用了传统的多尺度图片输入和滑动金字塔池化的网络设计来高效地提高性能.本文的结果在很多数据集上达到了新的state-of-the-art,包括NYUDv2,PASCAL VOC 2012, PASCAL-Context和SIFT-flow.
Introduction
由于FCNNs对于语义分割高效计算能力和end-to-end的学习方式,已经成为语义分割领域最受欢迎的选择.
两种上下文
在场景理解任务中,上下文关系是无处不在的并且为分割提供了重要的线索.空间上下文关系可以提供物体的兼容关系,例如汽车可能展示在公路上,当然,也编码包含不兼容关系,例如汽车不可能在天空中.当然也存在part-to-part和part-to-object的关系.
本文提出了两种类型的空间上下文来提高分割性能:patch-patch上下文和patch-background上下文.
关于如何精确的建模patch-patch上下文关系,在最近中CNN-based分割方法中还没有很好的研究.本文提出了一种使用CRFs的方法.使用CNN-based的成对势能函数来捕获相邻patches中间的语义关系.和其他使用CRFs来勾勒区域边界不同,本文的CNN成对势能主要是为了提高coarse-level的预测.
patch-backround在最近的文献中被广泛利用.CNN-based的方法可以通过利用malti-scale图片输入来捕获背景信息.本文使用multi-scale网络和sliding pyramid pooling来编码丰富的背景信息.
由于成对势能在预测阶段耗时较多,本文为了高效学习,使用pecewise的方法训练CRF(不太明白).
本文主要贡献如下:
(1) 本文方程化了CRFs中的CNN-based通用成对势能函数,来精确建模patch-patch语义关系.
(2) 由于深度的CNN-based通用成对势能对于高效的CNN-CRF联合学习很困难,因此使用近似的训练方法-piecewise训练.
(3) 通过使用传统的multi-scale输入和sliding pyramid pooling来研究背景上下文.
(4) 在多个数据集上达到了state-of-the-art.
Modeling semantic pariwise relations
不理解途中generate features做了什么.
Contextual Deep CRFs
这部分讲解了本文提出的Deep CRFs结构,这里一元势能和二元势能的获取如图3中所示.
Exploiting background context
也就是利用多尺度和滑动金字塔结构来编码背景信息.
Prediction
参考图3,经过FeatMap-Net先生成原图1/16的特征图.然后进行两个阶段的转化,得到最终结果.
第一个阶段是Coarse-level prediction stage,也就是deep CRFs阶段,第二个阶段是先upsampling到原图,然后dense CRFs.
Reference
- [3] deeplabv1
- [13] Learning hierarchical features for scene labeling.
- [32] FCN
- [33] zoom-out
- [35] deconvnet
- [40] A. G. Schwing and R. Urtasun. Fully connected deep
structured networks, 2015. - [48] crfasrnn
- 【CNNCRF】Efficient Piecewise Training of Deep Structured Models for Semantic Segmentation
- 语义分割--Efficient and Robust Deep Networks for Semantic Segmentation
- 语义分割--Efficient Deep Models for Monocular Road Segmentation
- 图像分割“Efficient Deep Models for Monocular Road Segmentation”
- Learning Deep Structured Semantic Models for Web Search using Clickthrough Data笔记
- [论文笔记]Learning Deep Structured Semantic Models for Web Search using Clickthrough Data
- 语义分割--LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation
- 图像分割“LinkNet: Exploiting Encoder Representations for Efficient Semantic Segmentation”
- Learning and Incorporating Shape Models for Semantic Segmentation文章理解
- Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank
- Deep Learning:Optimization for Training Deep Models(零)
- Deep Learning:Optimization for Training Deep Models(一)
- Deep Learning:Optimization for Training Deep Models(二)
- Decoupled deep neural network for semi-supervised semantic segmentation 笔记
- 语义分割--Deep Dual Learning for Semantic Image Segmentation
- Deep Convolutional Nets for Semantic Image Segmentation with Deep Gaussian CRFs
- READING NOTE: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation
- keypoint of《Rich feature hierarchies for accurate object detection and semantic segmentation》
- poj3244(数学公式推导)
- Unity简单修改UV的动画脚本
- openstack的用户(user), 租户(tenant), 角色(role)概念区分
- HDU 5710 Digit-Sum (构造)
- android 实现简单注册登陆公能
- 【CNNCRF】Efficient Piecewise Training of Deep Structured Models for Semantic Segmentation
- 标志寄存器
- Java虚拟机内存模型
- Cypher语言语法简介
- codeforces 804A——Find Amir
- Java开发Redis连接池工具类
- Etcd 添加节点
- 怎样用java实现压缩传输文件夹
- 一些正则判断