[深度学习论文笔记][CVPR 17 Best Paper Honorable Mention] Annotating Object Instances with a Polygon-RNN

来源:互联网 发布:淘宝双11海景房氛围图 编辑:程序博客网 时间:2024/06/06 12:51

[CVPR 17 Best Paper Honorable Mention Awards] Annotating Object Instances with a Polygon-RNN

Lluıs Castrejon, Kaustav Kundu, Raquel Urtasun and Sanja Fidler

from

University of Toronto

paper link

Motivation

这篇文章的目的是提供一个针对分割数据库的自动标注工具。目前大型的分割数据库的标注是由标注员点击鼠标,使用一个多边形将物体围起来实现的。这篇文章提出的模型(Polygon-RNN)以物体的包络框(类似于检测任务的ground truth)切割下来的子图作为输入,输出一系列坐标点,形成分割的多边形标注。其功能示意如下图所示:

image

该文章的来源应该是作者之一Lluıs Castrejon的课程报告 (link)。在这份报告中,作者使用类似的模型直接应用于图像分割任务。

Model Framework & Method

Polygon-RNN的框架如下图所示:

image

整个框架由两部分组成:
1. 使用CNN提取图像特征;
2. 使用一个LSTM模型输出不定长的多边形坐标序列。

在第一部分中,作者使用预训练后的VGG-16模型作为主干,将不同尺度下的特征连接在一起进行融合,从而提取出语义与空间结构信息并存的图像特征。

在第二部分中,作者在LSTM中使用的是卷积操作而不是传统的全连接操作。因此LSTM的输出与其输入有同样的尺寸。这一部分在每个序列元素上的输出是一个二维的结果,上面的每一个数值代表当前点是当前坐标点的概率。另外每次输出还有一个单独的数值,代表当前坐标点是多边形边缘终点的概率。

第二部分的LSTM模块不仅以CNN的特征作为输入,同时也输入上一个、上上一个坐标点和第一个坐标点的结果。这就保证了坐标点的输出顺序是固定的(顺时针或者逆时针依次输出各个坐标)。对于第一个坐标点的预测,作者进行了特殊处理。作者使用同样的CNN部分结构,在此之上添加了两条支路。一条支路进行训练用来检测物体的边缘,得到二维的结果。另一条支路以CNN的特征和预测到的边缘作为输入,得到第一个坐标点的位置。

在使用gtx titan-x的情况下,模型的训练大概需要一天,每个物体的预测需要250ms左右。

User Interaction

作为自动标注工具,作者提供了用户交互的功能。即用户可以及时纠正模型每一步的输出结果,从而避免之后的预测结果出现较大错误。如果没有人工辅助,Polygon-RNN也可以作位一个弱监督分割模型存在。

Experiments

作为弱监督分割模型,作者在Cityscape数据库上与其它object proposal方法进行了对比:
这里写图片描述

作为标注工具,作者对比了传统流程下人工标注的工作量和效果,以及使用Polygon-RNN之后的工作效率。T代表当模型输出结果偏离ground truth的距离为T时,则需要一次人为的点击纠正:

这里写图片描述

一些定性的预测结果如下图所示:

这里写图片描述

阅读全文
0 0
原创粉丝点击