[paper]End-to-End Training of Hybrid CNN-CRF Models for Stereo

来源：互联网发布：待遇好的建筑公司知乎编辑：程序博客网时间：2024/06/05 08:17

Pre-learning

隐马尔科夫模型
Y={y1,y2,...,yn} 是一组随机变量，X={x1,x2,...,xn} 是其观测变量，我们假设Y具有马尔科夫性，则X，Y的联合概率为
P(x1,x2,...,xn,y1,y2,...,yn)=P(y1)P(x1|y1)∏i=2nP(yi|yi−1)P(xi|yi)

为确定一个Hidden Markov Model，需要确定以下三组参数[A,B,π]
- 状态转移概率 A=[aij]NxN其中 $a i j = P (y t + 1 = s j | y t = s i), 1 \leq i, j \leq N$
  表示t时刻状态为si, t+1时刻状态为 sj 的概率
- 输出观测概率 B
- 初始状态概率 π
马尔科夫随机场
- 团，极大团
- 在马尔科夫随机场中，多个变量之间的联合概率能基于团分解为多个因子的乘积，每个因子仅与一个团相关。
  $P (X) = 1 Z \prod Q \in C ψ Q (X Q)$
  其中X={x1,x2,...,xn} 是n个随机变量，其所有团构成集合C，与团Q∈C 对应的变量集合记为 XQ
条件随机场
马尔科夫随机场希望预测的是联合概率P(X,Y,O)
而条件随机场希望预测条件概率 P(Y|X,O)
马尔科夫随机场是生成模型，而条件随机场是判别模型。

Notation_paper

Contribution

Proposed hybrid CNN+CRF model for stereo match
Proposed a sound model based on Structured Support Vector Machine to train the hybrid model end-to-end.
Using only shallow CNN and without post-processing, the model performs very well in benchmark.

model architecture

这是我们用来做stere match的模型结构。首先对左图中每个像素，我们用UnaryCNN 对其对应的image pairs (I0,I1) 【这里是整张图】进行特征计算，然后用一个correlation层进行特征比较（相似度/cost计算），由此产生cost volume 作为CRF模型的unary(一元)损失项。而CRF的成对项(pairwise cost)损失则通过Contrast Sensitive model 或者Pair-wise CNN 进行计算。

Unary CNN

这里用3-7层，每层100个filters的CNN网络，对输入图片进行特征计算，其中第一层的filter size为3x3，其它层为2x2。同时我们用tanh作为激活函数，而不是用RELU，一方面tanh比较好训练，不需要插入复杂的BN层，其次[1](patch matching for optical flow with thresholded hinge loss.), [2](Discriminative learning of local image descriptors.) 证明tanh比RELU更适合Patch Match的任务。

Correlation

这一步，我们通过以下公式计算分别从左右图中获取的特征 ϕ0,ϕ1 的cross-correlation：

p i (k) = e < ϕ 0 i , ϕ 1 i + k > \sum j \in  e < ϕ 0 i , ϕ 1 i + j > \forall i \in Ω, \forall k \in 

{#eq: (3)}

其中 I0,I1 是左右整图，i∈Ω=domI0 （dom = domain of function) 代表图片I0, 则ϕ0i,ϕ1i+k 分别是左图i像素和右图i+k像素对应的feature. xi∈={0...L−1} disparity的可能取值，也是Stereo match问题中，像素i对应的label。
这里的 pi(k) 是由一个softmax 分类器计算得到，可以用作模型认为i属于label k的概率/置信度，或者说 I0 中以i为中心的一个window和 I1 中以i+k为中心的window的匹配度。

CRF

CRF model:

m i n x \in  (f (x) : = \sum i \in  f i (x i) + \sum i, j \in ε f i, j (x i, x j))

其中，

 是所有CRF图模型中的节点，即所有像素的集合【和

Ω 的区别？？】，

 是所有边的集合，

= 是标签所在的空间（space of labelings）。
unary 损失项

fi:→ 为我们之前计算的匹配度的取负

fi(k)=−pi(k).
pair-wise 损失项则为

f i, j (x i, x j) = ω i j ρ (| x i - x j |, P 1, P 2)

其中，

ωij 可以人为设定（如下式）或者用学习得到的pair-wise CNN代替。

ω i j = e x p (- α | I i - I j | β), \forall i j \in 

ρ (| x i - x j |) = ⎧ ⎩ ⎨ ⎪ ⎪ 0, P 1, P 2, if | x i - x j | = 0, if | x i - x j | = 1, o t h e r w i s e

P1 用来惩罚平滑表面的微小的视差值变化，

P2 用来惩罚视差不连续区域较大的视差变化。我们只用4-connected grid 上的pairwise-interaction，

Inference
直接求解上面的CRF模型是非常困难的，但是我们可以用一些算法求近似解。

Let f denote the concatenated cost vector of fi and fi,j. Then we decompose f into horizontal and vertical chains: f=f1+f2, where f1 includes all horizontal edges and all unary terms, f2 all vertical edges and zeros unary terms.
The DUAL_MM of (#eq:3)

max λ (D (λ) : = min x 1 (f 1 + λ) (x 1) + min x 2 (f 2 - λ) (x 2))

阅读全文

0 0