Learning Depth from Single Monocular Images Using Deep Convolutional Neural Fields

来源：互联网发布：dota2新人选手知乎编辑：程序博客网时间：2024/04/30 09:00

贡献：

1\提出了一个用于深度估计的，基于CNN和CRF的深度卷积神经场模型。考虑到深度值连续性，概率密度函数中配分函数（the partition function 分割函数？）能够被分析计算，进而我们可以在没有近似值（approximations）的情况下，直接求解对数似然优化。在反向传播训练中，梯度可以被精确地计算。此外，由于存在相近的情形，预测一个新的图像深度而求解MAP问题是非常高效的。

2\我们使用了反向传播训练，在同一deep CNN框架中，同时学习unary and pairwise potentials of the CRF.

3\我们提出了一个基于全卷积网络和超像素池化方法的快速模型，在相同精度的情况下加速10倍。这个模型，我们参考了DCNF-FCSP（DCNF-深度神经卷积场，FCSP？），我们为了提升效果，设计了非常深的网络。

4\我们证明了提出的方法不管在室内还是室外场景数据库上，都是state-of-the-art.

相关工作：

我们的单视图深度估计的方法，采用了最近很多分类、检测、语义分割方面的深度网络有点。下面是最近的相关工作的简短介绍。

深度估计：

传统的方法将其认为是马尔科夫随机场（MRF）学习问题。通常来说，精确地马尔科夫随机场学习和推断是棘手的，大多数的方法都是采用近似方法，例如多条件学习（MCL），或者partical belief propagation（PBP 粒子可信传播）。预测新图像的深度是效率非常低的，大概4-5秒甚至更长时间。更糟糕的是，这些方法依赖于水平对齐的图片，需要训练集具有语义标签，缺少灵活性。最近liu等提出了连续离散的条件随机场模型将临近的超像素考虑进去，例如遮挡问题。这些也需要使用近似的方法来学习和最大后验概率（MAP）推断。此外，他们的方法依赖于图像检索来获得合理的初始化。相反，我们提出的一个连续CRF模型，可以在没有近似的情况下，求解对数似然优化。因为配分函数能够直接分析计算。因为一个近似形式解的存在，预测一个新的图像深度是非常高效的。此外，我们没有加入仍和图像先验知识或者额外的信息。在另一方面，先前的方法全都使用手工特征，例如texton，GIST，SIFT，PHOG，object bank等。相反，我们只构建CRF场的unary and pairwise potentials来学习深度CNN。

最近，Eigen等提出了一个多尺度CNN方法用于深度估计，和我们的工作想死。然而我们的方法很大程度上和他们的有所不同：他们使用的CNN网络时作为黑盒，直接对输入图像中的深度图通过卷积进行回归；襄樊，我们使用CRF来对相邻超像素的关系对模型进行精确化，在同一个CNN框架中学习potentials（both unary and binary）。

最近的有两篇论文是和我们的工作相关，他们也使用了单图片进行像素深度估计。

深度卷积神经场

2.1 概览

目标：推断描绘一般场景的单张图片中每一个像素对应点额深度值。在前人工作的基础上，对图像做出一般假设：一副图像由很多相似的区域组成，认为是由定义为超像素的节点来组成图像模型。每个超像素的深度都用其中心点的深度来表示。x表示图像，y向量表示对应x中超像素的连续深度值。与传统的CRFs相似，我们使用下面的密度函数来表示模型的条件概率分布：

此处有俩公式。

这里，因为y（图像中的超像素的深度值）是连续的，那么公式1的积分能够在确定的情况下分析计算（章2.3）。

贡献：

2\我们使用了反向传播训练，在同一deep CNN框架中，同时学习unary and pairwise potentials of the CRF.

4\我们证明了提出的方法不管在室内还是室外场景数据库上，都是state-of-the-art.