声学模型学习笔记（五） SDT(MMI/BMMI/MPE/sMBR)

来源：互联网发布：李约瑟问题知乎编辑：程序博客网时间：2024/05/16 14:28

DNN训练使用的CE准则是基于每一帧进行分类的优化，最小化帧错误率，但是实际上语音识别是一个序列分类的问题，更关心的是序列的准确性。所以引入SDT(sequence-discriminative training)，训练准则更符合实际，有利于提升识别率。常用的准则包括MMI/BMMI、MPE、MBR等。

准则目标函数 CE 帧错误率 MMI/BMMI 句子正确率 MPE phone错误率 sMBR 状态错误率

MMI

MMI(maximum mutual information)准则最大化观察序列分布和word序列分布之间的互信息，减小句子错误率。
假设观察序列om=om1,...,omTm，word序列wm=wm1,...,wmNm，其中m表示utterance，Tm表示帧数，Nm表示word个数。训练集为S={(om,wm)|0≤m≤M}，MMI准则可以表示如下:

J M M I (θ; S) = \sum m = 1 M J M M I (θ; o m, w m) = \sum m = 1 M l o g P (w m | o m; θ)

= \sum m = 1 M l o g p ( o m | s m ; θ ) k P ( w m ) \sum w p ( o m | s w ; θ ) k P ( w )

其中

k表示acoustic scale，

θ表示模型参数，

sm表示状态序列。物理意义可以理解为：分子表示准确结果对应路径的总得分（声学和语言），分母表示所有路径对应的得分总和（为了计算上的可操作性，实际用lattice简化表示）。模型参数的梯度可以表示如下：

\nabla J M M I (θ; o m, w m) = \sum m \sum t \nabla z L m t J M M I (θ; o m, w m) \partial z L m t \partial θ = \sum m \sum t e ¨ L m t \partial z L m t \partial θ

其中

zLmt表示softmax层的输入（没有做softmax运算），跟CE准则的不同体现在

e¨Lmt，进一步计算如下:

e ¨ L m t (i) = \nabla z L m t (i) J M M I (θ; o m, w m)

= \sum r \partial J M M I ( θ ; o m , w m ) \partial l o g p ( o m t | r ) \partial l o g p ( o m t | r ) \partial z L m t ( i )

第一部分

\partial J M M I ( θ ; o m , w m ) \partial l o g p ( o m t | r )

= \partial l o g p ( o m | s m ) k P ( w m ) \sum w p ( o m | s w ) k P ( w ) \partial l o g p ( o m t | r )

= k \partial l o g p ( o m | s m ) \partial l o g p ( o m t | r ) - \partial l o g \sum w p ( o m | s w ) k P ( w ) \partial l o g p ( o m t | r )

考虑到

p(om|sm)=p(om1|sm1)p(om2|sm2)...p(omTm|smTm)，所以上式第一项可以简化为：

k∂p(om|sm)∂logp(omt|r)=k(δ(r=smt))
第二项可以进一步求导：

\partial l o g \sum w p ( o m | s w ) k P ( w ) \partial l o g p ( o m t | r )

= \partial l o g \sum w e l o g p ( o m | s w ) k P ( w ) \partial l o g p ( o m t | r )

= 1 \sum w e l o g p ( o m | s w ) k P ( w ) \partial \sum w e l o g p ( o m | s w ) k P ( w ) \partial l o g p ( o m t | r )

= 1 \sum w p ( o m | s w ) k P ( w ) * \sum w e l o g p (o m | s w) k P (w) * \partial l o g p ( o m | s w ) k P ( w ) \partial l o g p ( o m t | r )

= 1 \sum w p ( o m | s w ) k P ( w ) * \sum w p (o m | s w) k P (w) * δ (s m t = r)

= \sum w : s t = r p ( o m | s w ) k P ( w ) \sum w p ( o m | s w ) k P ( w )

综合前面的第一项和第二项，可得：

\partial J M M I ( θ ; o m , w m ) \partial l o g p ( o m t | r ) = k (δ (r = s m t) - \sum w : s t = r p ( o m | s m ) k P ( w ) \sum w p ( o m | s m ) k P ( w ))

第二部分

考虑到p(x|y)∗p(y)=p(y|x)∗p(x)，第二部分可以表示如下：

\partial l o g p ( o m t | r ) \partial z L m t ( i )

= \partial l o g p ( r | o m t ) - l o g p ( r ) + l o g p ( o m t ) \partial z L m t ( i )

= \partial l o g p ( r | o m t ) \partial z L m t ( i )

其中

p(r|omt)表示DNN的第r个输出，

p (r | o m t) = s o f t m a x r (z L m t) = e z L m t ( r ) \sum j e z L m t ( j )

所以，

\partial l o g p ( o m t | r ) \partial z L m t ( i ) = δ (r = i)

按照文章的推导应该得到这个结果，但是实际上分母还包含

zLmt(i)，是不是做了近似认为分母是常量，这一步有疑问？？？？

综合上面两部分，可以得到最终的公式:

e ¨ L m t (i) = k (δ (i = s m t) - \sum w : s t = i p ( o m | s m ) k P ( w ) \sum w p ( o m | s m ) k P ( w ))

Boosted MMI

J B M M I (θ; S) = \sum m = 1 M J B M M I (θ; o m, w m) = \sum m = 1 M l o g P ( w m | o m ) \sum w P ( w | o m ) e - b A ( w , w m )

= \sum m = 1 M l o g P ( o m | w m ) k P ( w m ) \sum w P ( o m | w m ) k P ( w ) e - b A ( w , w m )

相比于MMI，BMMI在分母上面增加了一个权重系数

e−bA(w,wm)，一般

b=0.5,

A(w,wm)是

w和

wm之间准确率的度量，可以是word/phoneme/state级别的准确率。
物理意义：
参考[3]给出的解释，We boost the likelihood of the sentences that have more errors, thus generating more confusable data. Boosted MMI can viewed as trying to enforce a soft margin that is proportional to the number of errors in a hypothesised sentence。
结合参数理解，就是

w和

wm越接近(错误的word越少)，

e−bA(w,wm)这个权重越小，相反，权重会越大，增加了数据的困惑度。
通过可以推导出误差信号：

e ¨ L m t (i) = k (δ (i = s m t) - \sum w : s t = i p ( o m | s w ) k P ( w ) e - b A ( w , w m ) \sum w p ( o m | s w ) k P ( w ) e - b A ( w , w m ))

MPE/sMBR

MBR(minimum Bayes risk)的目标函数是最小化各种粒度指标的错误，比如MPE是最小化phone级别的错误，sMBR最小化状态的错误。目标函数如下：

J M B R (θ; S) = \sum m = 1 M J M B R (θ; o m, w m) = \sum m = 1 M \sum w P (w | o m) A (w, w m)

= \sum m = 1 M \sum w P ( o m | s w ) k P ( w ) A ( w , w m ) \sum w ' P ( o m | s w ' ) k P ( w ' )

其中

A(w,wm)表示两个序列之间的差异，MPE就是正确的phone的个数，sMBR是指正确的state的个数。求导可得：

e ¨ L m t (i) = \nabla z L m t (i) J M B R (θ; o m, w m)

= \sum r \partial J M B R ( θ ; o m , w m ) \partial l o g p ( o m t | r ) \partial l o g p ( o m t | r ) \partial z L m t ( i )

第一部分

对于MPE，参考文献[4]：
首先将JMBR(θ;om,sm)分子分母求和部分分为两块，r∈sw和r∉sw

J M B R (θ; o m, s m) = \sum s P ( o m | s ) k P ( s ) A ( s , s m ) \sum s ' P ( o m | s ' ) k P ( s ' )

= \sum s : r \in s P ( o m | s ) k P ( s ) A ( s , s m ) + \sum s : r \notin s P ( o m | s ) k P ( s ) A ( s , s m ) \sum s ' : r \in s ' P ( o m | s ' ) k P ( s ' ) + \sum s ' : r \notin s ' P ( o m | s ' ) k P ( s ' )

- 如果满足

r∈s，那么导数满足以下关系：

\partial P ( o m | s ) k \partial l o g p ( o m t | r ) = \partial e k * l o g P ( o m | s ) \partial l o g p ( o m t | r ) = k * P (o m | s) k

- 如果不满足

r∈s，那么导数将为0：

\partial P ( o m | s ) k \partial l o g p ( o m t | r ) = 0

不难推出：

\partial J M B R ( θ ; o m , s m ) \partial l o g p ( o m t | r )

= k * \sum s : r \in s P ( o m | s ) k P ( s ) A ( s , s m ) \sum s ' P ( o m | s ' ) k P ( s ' ) - k * \sum s P ( o m | s ) k P ( s ) A ( s , s m ) \sum s ' P ( o m | s ' ) k P ( s ' ) * \sum s : r \in s P ( o m | s ) k P ( s ) \sum s ' P ( o m | s ' ) k P ( s ' )

上面的等式可以简化为以下形式：

\partial J M B R ( θ ; o m , s m ) \partial l o g p ( o m t | r ) = k * γ ¨ D E N m t (r) (A ¯ m (r = s m t) - A ¯ m)

各个部分的定义如下：

γ ¨ D E N m t (r) = \sum s : r \in s P ( o m | s ) k P ( s ) \sum s ' P ( o m | s ' ) k P ( s ' )

A ¯ m = \sum s P ( o m | s ) k P ( s ) A ( s , s m ) \sum s ' P ( o m | s ' ) k P ( s ' )

A ¯ m (r = s m t) = E (A (s, s m)) = \sum s : r \in s P ( o m | s ) k P ( s ) A ( s , s m ) \sum s ' : r \in s ' P ( o m | s ' ) k P ( s ' )

第一项表示occupancy statistics
第二项表示lattice中所有路径的平均准确率
第三项表示lattice中所有经过r的路径的平均准确率，是

A(s,sm)的均值，可以将三个三项合并起来进行还原就很容易里面均值的含义。

第二部分

第二部分和MMI的一致

tricks

lattice generation

区分性训练时生成高质量的lattice很重要，需要使用最好的模型来生成对应的lattice，并且作为seed model。

lattice compensation

如果lattice产生的不合理的话，会导致计算出来的梯度异常，比如分子的标注路径没有在分母中的lattice出现，这种情况对于silience帧尤其常见，因为silience经常出现在分子的lattice，但是很容易被分母的lattice忽略。有一些方法可以解决这种问题：
- fame rejection，直接删除这些帧
- 根据reference hypothesis修正lattice，比如在lattice中人为地添加一下silience边

frame smoothing

SDT很容易出现overfitting，两方面原因
- sparse lattice
- sdt的squence相比于frame增加了建模的维度，导致训练集的后验概率分布更容易跟测试集出现差异

可以修改训练准则来减弱overfitting，通过结合squence criteria和frame criteria来实现：

J F S - S E Q (θ; S) = (1 - H) J C E (θ; S) + H J S E Q (θ; S)

H成为smoothing factor，经验值设为

4/5到

10/11

learning rate

SDT的学习率相比于CE要下，因为
- SDT的起点一般基于CE训练出来的model
- SDT训练容易出现overfitting

criterion selection

sMBR效果相比其他会好一点，MMI比较容易理解和实现。

noise contrastIve estimation

NCE可以用于加速训练

参考

[1]《automatic speech recognition a deep learning approach》 chapter8
[2]Sequence-discriminative training of deep neural networks
[3]Boosted MMI for model and feature-space discriminative training
[4]discriminative training for large vocabulary speech recognition {daniel povey的博士论文chapter6}

2 0