[paper]Efficient Deep Learning for Stereo Matching(未完成)

来源：互联网发布：网络上jr是什么意思编辑：程序博客网时间：2024/06/10 11:05

[Paper note](Efficient Deep Learning for Stereo Matching)

这篇文章介绍一种更加快速但是只损失少量精确度的双目视差计算方法。其使用的主要框架与MC-CNN类似，尤其是Fast 框架，直接对两个由Siamese network得到feature vectors进行inner product计算。然后对结果的预测采用多类分类的模型，类别即不同大小的disparity(MC-CNN中采用二元分类)，这样可以输出结果的置信度，用来帮助判断结果是否可信。
arct
https://imgbb.com/‘>best free photo hosting site

siamese 网络是由两个相同分支网络组成的结构，能够对两组输入数据进行相同的处理。我们采用传统的卷积 → BN → RELU → pooling → 卷积 → … 卷积 → BN → Softmax 形式构建网络。卷积核为(5x5或3x3 的大小) , 一般我们每一层用32或者64个卷积核。上图是一个用了3x3卷积核的4层的网络，因此整个网络对输入数据具有一个9x9的感受野(如果用3x3的kernel，stride=1，每一次卷积都会增大感受野（如何用kernel_size和s表示），感受野长度此时+1，所以在经过四次卷积之后，网络感受野增加至9x9)

训练

我们将视差计算问题当做一个多分类问题来处理，其中类别为所有可能的视差值。
训练数据：训练时，我们从左图选取一个patch，令 (xi,yi) 为patch的中心像素，dxi,yi 为对应的disparity的GT。从而我们从以左图patch为输入的siames网络得到64维的特征向量，从另一分支得到 |i|∗64 的特征向量(或者说 |i| 个64维的feature vectors，其中 |i| 是disparity的可能值的数量。然后对每个可能的disparity，我们计算两个分支（share parapmeters）的输出的inner product，最后通过一个softmax计算如下损失函数：

m i n w \sum i, y i p g t (y i) l o g p i (y i, w)

其中

pi(yi,w)=efyi∑max_dispyjefyj ,

fyi=ul∗uyi, for

yi in

[0,max_disparity] or

[−max_disparity,max_disparity]

p g t (y i) = ⎧ ⎩ ⎨ ⎪ ⎪ ⎪ ⎪ λ 1, i f y i = y G T i λ 2, i f | y i - y G T i | = 1 λ 3, i f | y i - y G T i | = 2 0, o t h e r w i s e

在这篇论文的实验中，取

λ1=0.5,λ2=0.2,λ3=0.05

yi 是通过什么计算的呢？

阅读全文

0 0