语音识别基本原理介绍------dnn-hmm续

来源：互联网发布：知君本无邪微盘编辑：程序博客网时间：2024/06/05 06:27

很久没更新博客了，最近找工作找的不是很顺利，我一直很看好语音的应用，觉得需求很多，但或许对应届生还是有些不一样，等确定了再分享下找工作的经验吧。这里主要说下语音识别现在大家都用的模型-----dnn-hmm，我自己也不能更好的去解释清楚，等我毕业前，我一定会把gmm-hmm和dnn-hmm的原理以最能理解的方式表达出来，我也很期待那一天。不多说了，直接说dnn-hmm。目前主流的方式是dnn-hmm，相信国内或者国外的用的都是这个，具体的应用主要参考li deng的这篇文章：Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition。主要的算法我截图下：

这个是在gmm-hmm的模型基础上做的，最基本的也要生成一个tied-state的cd-gmm-hmm模型。然后就可以用上面的算法去做，训练出一个dnn-hmm的模型。然后我也用之前的博客：语音识别系统原理介绍-----dnn-hmm。在训练dnn之前，做了一些预处理，对应算法里的1-4步，也算是一些转换吧。从第5步开始做dnn的预处理，可以看下下面的图。

dnn'的输入是：左4帧+本身这一帧+右4帧，这样组成9帧，mfcc特征是39维，所以是39*9，这里的mfcc主要是去掉idct这一步，主要是dnn可以学到去相关这一步。第一层是GRBM，后面每层是RBM，这样一层一层的训练。然后根据gmm-hmm的对齐，使用后向传播算法对每一帧来做fine-tuning，根据先验概率重新估计转移概率，然后再利用这个继续训练dnn-hmm。基本就是这个训练的过程，如果你有什么问题，欢迎留言提问。

之前写的博客：

1.语音识别系统原理介绍-----dnn-hmm

2.语音识别系统原理介绍---从gmm-hmm到dnn-hmm

最后，现在一般使用kaldi来做dnn-hmm，当然如果你对htk很熟的话，你也可以基于htk写个dnn，这个资料我之前的博客也有介绍。

0 0