[paper]End-to-End Training of Hybrid CNN-CRF Models for Stereo

来源:互联网 发布:待遇好的建筑公司知乎 编辑:程序博客网 时间:2024/06/05 08:17

Pre-learning

  1. 隐马尔科夫模型
    Y={y1,y2,...,yn} 是一组随机变量,X={x1,x2,...,xn} 是其观测变量,我们假设Y具有马尔科夫性,则X,Y的联合概率为
    P(x1,x2,...,xn,y1,y2,...,yn)=P(y1)P(x1|y1)i=2nP(yi|yi1)P(xi|yi)

    为确定一个Hidden Markov Model,需要确定以下三组参数[A,B,π]
    • 状态转移概率 A=[aij]NxN其中
      aij=P(yt+1=sj|yt=si),1i,jN

      表示t时刻状态为si, t+1时刻状态为 sj 的概率
    • 输出观测概率 B
    • 初始状态概率 π
  2. 马尔科夫随机场
    • 团,极大团
    • 在马尔科夫随机场中,多个变量之间的联合概率能基于团分解为多个因子的乘积,每个因子仅与一个团相关。
      P(X)=1ZQCψQ(XQ)

      其中X={x1,x2,...,xn} 是n个随机变量,其所有团构成集合C,与团QC 对应的变量集合记为 XQ
    • -
  3. 条件随机场
    马尔科夫随机场希望预测的是联合概率P(X,Y,O)
    而条件随机场希望预测条件概率 P(Y|X,O)
    马尔科夫随机场是生成模型,而条件随机场是判别模型。
  4. 4.

Notation_paper

Contribution

  1. Proposed hybrid CNN+CRF model for stereo match
  2. Proposed a sound model based on Structured Support Vector Machine to train the hybrid model end-to-end.
  3. Using only shallow CNN and without post-processing, the model performs very well in benchmark.

model architecture

这是我们用来做stere match的模型结构。首先对左图中每个像素,我们用UnaryCNN 对其对应的image pairs (I0,I1) 【这里是整张图】进行特征计算,然后用一个correlation层进行特征比较(相似度/cost计算),由此产生cost volume 作为CRF模型的unary(一元)损失项。而CRF的成对项(pairwise cost)损失则通过Contrast Sensitive model 或者Pair-wise CNN 进行计算。

Unary CNN

这里用3-7层,每层100个filters的CNN网络,对输入图片进行特征计算,其中第一层的filter size为3x3,其它层为2x2。同时我们用tanh作为激活函数,而不是用RELU,一方面tanh比较好训练,不需要插入复杂的BN层,其次[1](patch matching for optical flow with thresholded hinge loss.), [2](Discriminative learning of local image descriptors.) 证明tanh比RELU更适合Patch Match的任务。

Correlation

这一步,我们通过以下公式计算分别从左右图中获取的特征 ϕ0,ϕ1 的cross-correlation:

pi(k)=e<ϕ0i,ϕ1i+k>je<ϕ0i,ϕ1i+j>iΩ,k
{#eq: (3)}

其中 I0,I1 是左右整图,iΩ=domI0 (dom = domain of function) 代表图片I0, 则ϕ0i,ϕ1i+k 分别是左图i像素和右图i+k像素对应的feature. xi={0...L1} disparity的可能取值,也是Stereo match问题中,像素i对应的label。
这里的 pi(k) 是由一个softmax 分类器计算得到,可以用作模型认为i属于label k的概率/置信度,或者说 I0 中以i为中心的一个window和 I1 中以i+k为中心的window的匹配度。

CRF

CRF model:

minx( f(x):=ifi(xi)+i,jεfi,j(xi,xj) )

其中, 是所有CRF图模型中的节点,即所有像素的集合【和Ω 的区别??】, 是所有边的集合,=标签所在的空间(space of labelings)
unary 损失项 fi: 为我们之前计算的匹配度的取负 fi(k)=pi(k).
pair-wise 损失项则为
fi,j(xi,xj)=ωijρ(|xixj|,P1,P2)  

其中, ωij 可以人为设定(如下式)或者用学习得到的pair-wise CNN代替。
ωij=exp(α|IiIj|β), ij

ρ(|xixj|)=0,P1,P2,if |xixj|=0,if |xixj|=1,otherwise

P1 用来惩罚平滑表面的微小的视差值变化,P2 用来惩罚视差不连续区域较大的视差变化。我们只用4-connected grid 上的pairwise-interaction,

Inference
直接求解上面的CRF模型是非常困难的,但是我们可以用一些算法求近似解。

Let f denote the concatenated cost vector of fi and fi,j. Then we decompose f into horizontal and vertical chains: f=f1+f2, where f1 includes all horizontal edges and all unary terms, f2 all vertical edges and zeros unary terms.
The DUAL_MM of (#eq:3)

maxλ(D(λ):=minx1(f1+λ)(x1)+minx2(f2λ)(x2))

阅读全文
0 0
原创粉丝点击