[深度学习论文笔记][CVPR 17 Best Paper Honorable Mention] Annotating Object Instances with a Polygon-RNN

来源：互联网发布：淘宝双11海景房氛围图编辑：程序博客网时间：2024/06/06 12:51

[CVPR 17 Best Paper Honorable Mention Awards] Annotating Object Instances with a Polygon-RNN

Lluıs Castrejon, Kaustav Kundu, Raquel Urtasun and Sanja Fidler

from

University of Toronto

paper link

Motivation

这篇文章的目的是提供一个针对分割数据库的自动标注工具。目前大型的分割数据库的标注是由标注员点击鼠标，使用一个多边形将物体围起来实现的。这篇文章提出的模型(Polygon-RNN)以物体的包络框（类似于检测任务的ground truth）切割下来的子图作为输入，输出一系列坐标点，形成分割的多边形标注。其功能示意如下图所示：

该文章的来源应该是作者之一Lluıs Castrejon的课程报告 (link)。在这份报告中，作者使用类似的模型直接应用于图像分割任务。

Model Framework & Method

Polygon-RNN的框架如下图所示：

整个框架由两部分组成：
1. 使用CNN提取图像特征；
2. 使用一个LSTM模型输出不定长的多边形坐标序列。

在第一部分中，作者使用预训练后的VGG-16模型作为主干，将不同尺度下的特征连接在一起进行融合，从而提取出语义与空间结构信息并存的图像特征。

在第二部分中，作者在LSTM中使用的是卷积操作而不是传统的全连接操作。因此LSTM的输出与其输入有同样的尺寸。这一部分在每个序列元素上的输出是一个二维的结果，上面的每一个数值代表当前点是当前坐标点的概率。另外每次输出还有一个单独的数值，代表当前坐标点是多边形边缘终点的概率。

第二部分的LSTM模块不仅以CNN的特征作为输入，同时也输入上一个、上上一个坐标点和第一个坐标点的结果。这就保证了坐标点的输出顺序是固定的（顺时针或者逆时针依次输出各个坐标）。对于第一个坐标点的预测，作者进行了特殊处理。作者使用同样的CNN部分结构，在此之上添加了两条支路。一条支路进行训练用来检测物体的边缘，得到二维的结果。另一条支路以CNN的特征和预测到的边缘作为输入，得到第一个坐标点的位置。

在使用gtx titan-x的情况下，模型的训练大概需要一天，每个物体的预测需要250ms左右。

User Interaction

作为自动标注工具，作者提供了用户交互的功能。即用户可以及时纠正模型每一步的输出结果，从而避免之后的预测结果出现较大错误。如果没有人工辅助，Polygon-RNN也可以作位一个弱监督分割模型存在。

Experiments

作为弱监督分割模型，作者在Cityscape数据库上与其它object proposal方法进行了对比：
这里写图片描述

作为标注工具，作者对比了传统流程下人工标注的工作量和效果，以及使用Polygon-RNN之后的工作效率。T代表当模型输出结果偏离ground truth的距离为T时，则需要一次人为的点击纠正：

这里写图片描述

一些定性的预测结果如下图所示：

这里写图片描述

阅读全文

0 0