DNN-HMM 中 DNN 与 HMM 的关系

来源:互联网 发布:115年费会员淘宝 编辑:程序博客网 时间:2024/05/21 14:54

状态绑定参考:点击打开链接

决策树的聚类参考:点击打开链接


一、简单原理介绍

在发音过程中,因为协同发音的影响,同一个音素在不同的位置,其发音变化很大,如下图所示:

同样的元音[eh]在不同的单词中的发音在频域上区分非常明显。


因为单音素monophone 是上下文独立的(context-independent)

为了能够表示这种区别,因此提出了triphone的概念,triphone是根据左右音素来确定的,因此是上下文相关的(context-dependent)


上图中:W对应的是词组;Q对应的是monophone;L对应的就是triphone;P对应聚类或者状态绑定之后的triphone

接下来本文就要讨论triphone聚类/状态绑定的过程。

聚类过程有2中,一种是居于数据驱动的聚类过程,第二种是基于决策树的聚类过程,首先讨论基于数据的过程

当单音素集合中有50个音素的时候,如果展开成[x-phone+y]形式的triphone的个数则有50*50*50=125,000个,假设8变量的高斯分布有44个参数(d+(d+1)*d/2)的话,一个triphone由3状态的hmm表示,那么总triphone集合中共参数个数为:125,000*3*44=16,500,000个参数,参数迅速爆炸了,因此,需要对triphone状态进行绑定,然后进行聚类

状态绑定的含义就是状态用共同的高斯参数,这样来减少参数爆炸的问题。

HMM状态绑定过程如下:


决策树聚类之后的结果称做 senone。什么是senone 参考这个:点击打开链接

DNN 的训练参考这个:点击打开链接


二、总结

    简单地说“DNN-HMM”是用DNN替换“GMM-HMM”中的 GMM,而两种模型中 HMM 的部分是相同的,也就是说做 DNN,需要先训练出 GMM-HMM。转移概率就是从 HMM 中得到,声学似然/声学先验概率是从 DNN / GMM 中计算得到。

    上下文相关建模通常以phone/subphone为基本单位,由于有些音素对其后音素的影响是相似的,因而可以通过音素解码状态的聚类进行模型参数的共享。聚类的结果称为senone。

    (GMM-HMM)中triphone 的 subphone 在决策树聚类后与 senone 具备对应关系,转移概率从 HMM 中获得,subphone 的 似然从相应的 senone 中计算得出。

        决策树是用来实现高效的triphonesenone的对应,通过回答一系列前后音所属类别(元/辅音、清/浊音等等)的问题,最终确定HMM状态应使用哪个senone


         总结一下:声学训练完成后形成了如下对应关系:

          W(对应词组) -> Q(对应monophone) -> L(对应triphone) -> senone(对应状态绑定、聚类后结果)

          而转移概率是 triphone 的更小单位 subphone (对应senone) 后的转移概率。





1 0
原创粉丝点击