论文笔记:Deep Image Matting

来源:互联网 发布:开淘宝店后要怎么操作 编辑:程序博客网 时间:2024/06/06 03:28

       这是一篇非常有意思的介绍利用深度学习进行抠图的文章。文章传送:Deep Image Matting文章 。文章提出的方法在抠图alphamatting.com 比赛中,排名第一。

       文章提出的算法主要分为两个部分:第一部分通过深度卷积的encoder-decoder网络,输入图像和图片对应的一个trimap,来预测图像的alpha matte(蒙板),第二部分用小型卷积网络对第一部分得到的蒙板进行微调,获得边缘更尖锐的结果。同时,文章提供了一个由49300训练图像和1000检测图像组成的抠图数据集(合成数据集)。


      抠图问题的核心是精确地将图像或视频中的前景估计出来,对图像编辑,影片剪辑等都有很深的意义。现有的方法主要有两个弊端1)通过求解“抠图方程式”来解决(具体见文章),改公式将问题变成前景颜色和背景颜色的线性组合问题,将问题考虑成颜色和区别特征的问题,这样效果并不好。现代的一些深度学习用来抠图的算法也依然高度依赖基于颜色的传播方法。2)现有数据集的数据量太小。文章针对这些问题,设计了一个输入为图像和 trimap 的,end-to-end的蒙板学习方法。同时,通过合成得到一个抠图大数据集,将单一背景下的目标进行提取,合成到复杂的新背景下。

      输入图像和 trimap 的示意如下图展示,右边两列为closed-form方法和文章结果的对比,其中第一排车为Alpha Matting 比赛中图片,下排来源为文章合成的测试数据集。



New matting dataset:

       alphamatting.com 的数据集需要ground truth人工完成,于是只有27张训练影像和8张测试图,为了更好地训练抠图网络,文章通过合成目标到新的背景中方法产生。首先找到背景简单单一的图像,用PS软件小心地获取精准目标蒙板和前景颜色,再随机选取MS COCO数据集或VOC数据集产生N个背景。

       训练数据集有493个独特的前景目标,49300张影像(N=100),检测数据集有50个独特目标,1000张图片(N=20)。trimap在ground truth的蒙板上进行随机扩大产生。文章提出的数据集的主要优点有:目标种类多,并且如头发等细节丰富,背景比较复杂等。

       下图为数据集产生示意图,a为原图,b为蒙板,c为单独的前景颜色信息,后面三图为添加背景后:



模型结构:

       主要分为两阶段:第一阶段为深度卷积的encoder-decoder network,输入为图像+trimap,输出为预测蒙板产生的loss和联合的loss。第二阶段为小型卷积网络微调获得准确蒙板和尖锐边缘



1)Matting encoder-decoder stage:

网络结构:

       如图左部分,编码-解码网络在图像分割、边界预测等多方面取得了成功(如本博客上一篇 论文笔记:Label Refinement Network for Coarse-to-Fine Semantic Segmentation 也是用的这种网络)。整个阶段是图像patch和trimap作为输入,encoder网络经过一系列卷积层和池化层,得到降采样的特征图,decoder网络紧随其后,反池化过程将特征图上采样,输出蒙板。

       这里特别的是,encoder网络采用14个卷积层+5个max-pooling层,decoder网络为了加速进行了一定地缩小,只有6个卷积层和5个反池化层。

loss函数:

       设计了两个loss函数,一个称为alpha-prediction loss,另一个是compositional loss

       alpha-prediction loss 定义ground truth的蒙板值(alpha value)和预测的蒙板值在每一个像素位置的绝对差异。又由于绝对差不可微分,采用相对近似值模拟,如下:


这里,是预测层对于像素位置i的预测值,即为ground truth值。10^(-6)

        compositional loss 是ground truth和预测的RGB之间的loss,c定义RGB通道,类似于前面的alpha-prediction losscompositional loss 计算公式为:



2)Matting refinement stage:

       由于前面网络得到的结果有时候过于平滑,因此添加这个阶段。如前面网络整体结构图,输入是图像和前一阶段预测的4通道的alpha蒙板(每个通道取值范围0-255),网络是全卷积网络,包含4个卷积层,前3个卷积层都跟着一个ReLU层。为了使得尖锐的边缘即准确轮廓产生,该阶段不再进行降采样过程。这里,在4通道输入数据进入网络前,还采用了一个“ skip-model ”使得其值变成0-1。

       Matting refinement stage 的效果对比如下图展示:



最终结果展示:

       在 Alpha Matting 比赛中前五名的比赛截图,文章的方法排名第一:



       和其他方法的一些对比实验结果:


3 0
原创粉丝点击