Learning Depth from Single Monocular Images Using Deep Convolutional Neural Fields

来源:互联网 发布:dota2新人选手知乎 编辑:程序博客网 时间:2024/04/30 09:00



贡献:

    1\提出了一个用于深度估计的,基于CNN和CRF的深度卷积神经场模型。考虑到深度值连续性,概率密度函数中配分函数(the partition function 分割函数?)能够被分析计算,进而我们可以在没有近似值(approximations)的情况下,直接求解对数似然优化。在反向传播训练中,梯度可以被精确地计算。此外,由于存在相近的情形,预测一个新的图像深度而求解MAP问题是非常高效的。


    2\我们使用了反向传播训练,在同一deep CNN框架中,同时学习unary and pairwise potentials of the CRF.

    3\我们提出了一个基于全卷积网络和超像素池化方法的快速模型,在相同精度的情况下加速10倍。这个模型,我们参考了DCNF-FCSP(DCNF-深度神经卷积场,FCSP?),我们为了提升效果,设计了非常深的网络。

    4\我们证明了提出的方法不管在室内还是室外场景数据库上,都是state-of-the-art.


相关工作:

我们的单视图深度估计的方法,采用了最近很多分类、检测、语义分割方面的深度网络有点。下面是最近的相关工作的简短介绍。

深度估计:

传统的方法将其认为是马尔科夫随机场(MRF)学习问题。通常来说,精确地马尔科夫随机场学习和推断是棘手的,大多数的方法都是采用近似方法,例如多条件学习(MCL),或者partical belief propagation(PBP 粒子可信传播)。预测新图像的深度是效率非常低的,大概4-5秒甚至更长时间。更糟糕的是,这些方法依赖于水平对齐的图片,需要训练集具有语义标签,缺少灵活性。最近liu等提出了连续离散的条件随机场模型将临近的超像素考虑进去,例如遮挡问题。这些也需要使用近似的方法来学习和最大后验概率(MAP)推断。此外,他们的方法依赖于图像检索来获得合理的初始化。相反,我们提出的一个连续CRF模型,可以在没有近似的情况下,求解对数似然优化。因为配分函数能够直接分析计算。因为一个近似形式解的存在,预测一个新的图像深度是非常高效的。此外,我们没有加入仍和图像先验知识或者额外的信息。在另一方面,先前的方法全都使用手工特征,例如texton,GIST,SIFT,PHOG,object bank等。相反,我们只构建CRF场的unary and pairwise potentials来学习深度CNN。

最近,Eigen等提出了一个多尺度CNN方法用于深度估计,和我们的工作想死。然而我们的方法很大程度上和他们的有所不同:他们使用的CNN网络时作为黑盒,直接对输入图像中的深度图通过卷积进行回归;襄樊,我们使用CRF来对相邻超像素的关系对模型进行精确化,在同一个CNN框架中学习potentials(both unary and binary)。

最近的有两篇论文是和我们的工作相关,他们也使用了单图片进行像素深度估计。

深度卷积神经场

2.1 概览

目标:推断描绘一般场景的单张图片中每一个像素对应点额深度值。在前人工作的基础上,对图像做出一般假设:一副图像由很多相似的区域组成,认为是由定义为超像素的节点来组成图像模型。每个超像素的深度都用其中心点的深度来表示。x表示图像,y向量表示对应x中超像素的连续深度值。与传统的CRFs相似,我们使用下面的密度函数来表示模型的条件概率分布:

此处有俩公式。
这里,因为y(图像中的超像素的深度值)是连续的,那么公式1的积分能够在确定的情况下分析计算(章2.3)。


贡献:

    1\提出了一个用于深度估计的,基于CNN和CRF的深度卷积神经场模型。考虑到深度值连续性,概率密度函数中配分函数(the partition function 分割函数?)能够被分析计算,进而我们可以在没有近似值(approximations)的情况下,直接求解对数似然优化。在反向传播训练中,梯度可以被精确地计算。此外,由于存在相近的情形,预测一个新的图像深度而求解MAP问题是非常高效的。


    2\我们使用了反向传播训练,在同一deep CNN框架中,同时学习unary and pairwise potentials of the CRF.

    3\我们提出了一个基于全卷积网络和超像素池化方法的快速模型,在相同精度的情况下加速10倍。这个模型,我们参考了DCNF-FCSP(DCNF-深度神经卷积场,FCSP?),我们为了提升效果,设计了非常深的网络。

    4\我们证明了提出的方法不管在室内还是室外场景数据库上,都是state-of-the-art.


相关工作:

我们的单视图深度估计的方法,采用了最近很多分类、检测、语义分割方面的深度网络有点。下面是最近的相关工作的简短介绍。

深度估计:

传统的方法将其认为是马尔科夫随机场(MRF)学习问题。通常来说,精确地马尔科夫随机场学习和推断是棘手的,大多数的方法都是采用近似方法,例如多条件学习(MCL),或者partical belief propagation(PBP 粒子可信传播)。预测新图像的深度是效率非常低的,大概4-5秒甚至更长时间。更糟糕的是,这些方法依赖于水平对齐的图片,需要训练集具有语义标签,缺少灵活性。最近liu等提出了连续离散的条件随机场模型将临近的超像素考虑进去,例如遮挡问题。这些也需要使用近似的方法来学习和最大后验概率(MAP)推断。此外,他们的方法依赖于图像检索来获得合理的初始化。相反,我们提出的一个连续CRF模型,可以在没有近似的情况下,求解对数似然优化。因为配分函数能够直接分析计算。因为一个近似形式解的存在,预测一个新的图像深度是非常高效的。此外,我们没有加入仍和图像先验知识或者额外的信息。在另一方面,先前的方法全都使用手工特征,例如texton,GIST,SIFT,PHOG,object bank等。相反,我们只构建CRF场的unary and pairwise potentials来学习深度CNN。

最近,Eigen等提出了一个多尺度CNN方法用于深度估计,和我们的工作想死。然而我们的方法很大程度上和他们的有所不同:他们使用的CNN网络时作为黑盒,直接对输入图像中的深度图通过卷积进行回归;襄樊,我们使用CRF来对相邻超像素的关系对模型进行精确化,在同一个CNN框架中学习potentials(both unary and binary)。

最近的有两篇论文是和我们的工作相关,他们也使用了单图片进行像素深度估计。


深度卷积神经场(DCNF)

2.1 概览

我们的目标是根据单张描绘一般场景的图像推断出每一个像素点的深度。在前人工作的基础上,我们假设出每个图像是由超像素组成的,并且认为图像模型是由很多超像素节点所构成的。每一个超像素都由它的中心点的深度来描述。x表示一个图像,y向量表示对应图像x中的连续深度的向量。类似于通常的CRF,我们数据中的条件分布概率的密度函数如下:


其中的E是能量函数,Z是配分函数。


0 0
原创粉丝点击