视频物体分割--One-Shot Video Object Segmentation

来源:互联网 发布:重庆知行卫校 编辑:程序博客网 时间:2024/06/08 05:09

One-Shot Video Object Segmentation CVPR2017
http://www.vision.ee.ethz.ch/~cvlsegmentation/osvos/

One-Shot Video Object Segmentation,基于单帧标记的视频物体分割,对于一个视频中的某一个物体,我们只提供一张训练样本,怎么把视频里所有的该物体分割出来?
这里写图片描述
上图第一张图像是标记样本,其他的图像是分割的结果。

这里我们使用CNN网络来完成上述任务

One-Shot Video Object Segmentation (OSVOS) 算法总体的思路如下:
这里写图片描述
先在 ImageNet 训练一个图像分类模型,得到的网络称之为 Base Network,接着我们 在 DAVIS 训练一个分割网络,得到 Parent Network,最后我们在目标视频上微调,得到 Test Network。前两个网络的训练都是 offline, 最后一个网络的训练是 online

这个online 时间越长效果越好
这里写图片描述

3 One-Shot Deep Learning
对于单张训练样本的问题,人是怎么解决这个问题的了? we leverage strong priors: first “It is an object,” and then “It is this particular object.”我们的算法也是采取这个思路,循序渐进的解决这个问题。

这里写图片描述
3.1. End-to-end trainable foreground FCN
这里我们采用了一个 语义分割网络,参考文献【30】,基于 VGG模型。就是上图的 foreground branch,对于 这个分割网络的损失函数,我们参考文献【51】的 pixel-wise cross-entropy loss,同时了采取了文献【51】解决 imbalance between the two binary classes 的方法。

这个前景分割主要是判断物体的有无和大致位置,不能给予精确的边界位置信息,这里我们又加入了 contour 信息,
边缘检测CNN网络的训练完全是离线的, train the contour branch only offline

有了边缘信息,我们使用这些边缘信息来得到精确的物体分割,
the use of the Fast Bilateral Solver (FBS) [2] to snap the background prediction to the image edges

DAVIS Validation
这里写图片描述

Qualitative results
这里写图片描述

Youtube-Objects evaluation
这里写图片描述

更多的训练样本
这里写图片描述

Extended version of “One-Shot Video Object Segmentation”, CVPR 2017

Video Object Segmentation Without Temporal Information

extract the semantic instance information from instance-aware semantic segmentation algorithms (we experiment with two top-performing methods:
MNC [9] and the most recent FCIS [34]). We modify the algorithm and the network architecture to select and propagate the specific instances we are interested in, and then we adapt the network architecture to include these instance inside the CNN

这里写图片描述

这里写图片描述

这里写图片描述

阅读全文
0 0