[深度学习论文笔记][CVPR 17 Best Paper Honorable Mention] Annotating Object Instances with a Polygon-RNN
来源:互联网 发布:淘宝双11海景房氛围图 编辑:程序博客网 时间:2024/06/06 12:51
[CVPR 17 Best Paper Honorable Mention Awards] Annotating Object Instances with a Polygon-RNN
Lluıs Castrejon, Kaustav Kundu, Raquel Urtasun and Sanja Fidler
from
University of Toronto
paper link
Motivation
这篇文章的目的是提供一个针对分割数据库的自动标注工具。目前大型的分割数据库的标注是由标注员点击鼠标,使用一个多边形将物体围起来实现的。这篇文章提出的模型(Polygon-RNN)以物体的包络框(类似于检测任务的ground truth)切割下来的子图作为输入,输出一系列坐标点,形成分割的多边形标注。其功能示意如下图所示:
该文章的来源应该是作者之一Lluıs Castrejon的课程报告 (link)。在这份报告中,作者使用类似的模型直接应用于图像分割任务。
Model Framework & Method
Polygon-RNN的框架如下图所示:
整个框架由两部分组成:
1. 使用CNN提取图像特征;
2. 使用一个LSTM模型输出不定长的多边形坐标序列。
在第一部分中,作者使用预训练后的VGG-16模型作为主干,将不同尺度下的特征连接在一起进行融合,从而提取出语义与空间结构信息并存的图像特征。
在第二部分中,作者在LSTM中使用的是卷积操作而不是传统的全连接操作。因此LSTM的输出与其输入有同样的尺寸。这一部分在每个序列元素上的输出是一个二维的结果,上面的每一个数值代表当前点是当前坐标点的概率。另外每次输出还有一个单独的数值,代表当前坐标点是多边形边缘终点的概率。
第二部分的LSTM模块不仅以CNN的特征作为输入,同时也输入上一个、上上一个坐标点和第一个坐标点的结果。这就保证了坐标点的输出顺序是固定的(顺时针或者逆时针依次输出各个坐标)。对于第一个坐标点的预测,作者进行了特殊处理。作者使用同样的CNN部分结构,在此之上添加了两条支路。一条支路进行训练用来检测物体的边缘,得到二维的结果。另一条支路以CNN的特征和预测到的边缘作为输入,得到第一个坐标点的位置。
在使用gtx titan-x的情况下,模型的训练大概需要一天,每个物体的预测需要250ms左右。
User Interaction
作为自动标注工具,作者提供了用户交互的功能。即用户可以及时纠正模型每一步的输出结果,从而避免之后的预测结果出现较大错误。如果没有人工辅助,Polygon-RNN也可以作位一个弱监督分割模型存在。
Experiments
作为弱监督分割模型,作者在Cityscape数据库上与其它object proposal方法进行了对比:
作为标注工具,作者对比了传统流程下人工标注的工作量和效果,以及使用Polygon-RNN之后的工作效率。T代表当模型输出结果偏离ground truth的距离为T时,则需要一次人为的点击纠正:
一些定性的预测结果如下图所示:
- [深度学习论文笔记][CVPR 17 Best Paper Honorable Mention] Annotating Object Instances with a Polygon-RNN
- 2017CVPR论文---Annotating object instances with a polygon -RNN
- 论文笔记——CVPR 2017 Annotating Object Instances with a Polygon-RNN
- 训练样本制作--Annotating Object Instances with a Polygon-RNN
- 浅析"Sublabel-Accurate Relaxation of Nonconvex Energies" CVPR 2016 Best Paper Honorable Mention
- [深度学习论文笔记][CVPR 17 oral] Inverse Compositional Spatial Transformer Networks
- [深度学习论文笔记][CVPR 17]RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic
- 论文笔记:A clockwork RNN
- [深度学习论文笔记][CVPR 16]Deep Metric Learning via Lifted Structured Feature Embedding
- [深度学习论文笔记][CVPR 16]ScribbleSup: Scribble-Supervised Convolutional Networks for Semantic Segmentation
- 【深度学习论文笔记】Deep Neural Networks for Object Detection
- [深度学习论文笔记][Object Detection] Fast R-CNN
- The best paper of CVPR, 2009
- 深度学习论文理解1:what is the best multi-stage architecture for Object Recognition
- [深度学习论文笔记][Image Classification] Going Deeper with Convolutions
- 【深度学习-RNN】Rich feature hierarchies for accurate object detection and semantic segmentation笔记
- 深度学习论文笔记
- [深度学习论文笔记][Depth Estimation] Predicting Depth, Surface Normals and Semantic Labels with a Common M
- Oracle-查询语句总结
- 设计模式之简单工厂模式
- linux安装图形界面
- 接入X5内核后出现32位无法在64位机器运行的问题(java.lang.reflect.InvocationTargetException; cause: java.lang.Unsatisfied)
- CentOS7安装Nginx
- [深度学习论文笔记][CVPR 17 Best Paper Honorable Mention] Annotating Object Instances with a Polygon-RNN
- tomcat 常见问题
- CISSP读书笔记-安全和风险管理-通过原则和策略的安全治理
- JS中从字符串提取整数,取类名,添加与移除类
- 大数运算
- aop 经典增强
- Java NIO 非阻塞式(non-block) 代码示例
- python列表(List)的基本用法
- 第七章 SpringMVC+Mybatis-跟赵大笨笨学SpringMVC