语音识别系统原理介绍-----dnn-hmm

来源：互联网发布：php需要用到什么软件编辑：程序博客网时间：2024/05/18 14:46

最近看到一个ASR的课程，很不错吧。网址：http://www.inf.ed.ac.uk/teaching/courses/asr/。大家有时间可以去看下……

接下来就开始说dnn-hmm系统吧。所谓的这个就是把之前gmm这部分换成dnn，基于这个我们可以认为，深度学习模型可以更好的去模拟我们的语音信号吧。先上个总图吧：

看到这个图大家应该都可以很清楚地去理解了。下面分开介绍：

1.特征部分：一般在深度学习系统里用Filter bank 作为特征，这个就是在做MFCC时去掉最后二步。在论文里说，这样得到的效果比MFCC效果好几个点吧。具体的稍后贴图 (右图）。见文章：RECENT ADVANCES IN DEEP LEARNING FOR SPEECH RESEARCH AT MICROSOFT。

此外，有些人在研究其他的特征，最多的就是bottleneck feature.这个现在很多人在研究，寻找一个很多的特征，肯定会使我们最后的识别率得到提高吧。至于这个 bottleneck feature,稍后贴出几篇文章。

2.dnn部分：至于深度学习，相信了解的人都知道：从最初的bp算法，到现在的rbm，dbn，cnn，rnn等等模型。当然，注意的是，语音不在像图像，在做第一个rbm时应该用 grbm。我们应该用连续的就是高斯了来做这个假设。下面还是继续贴图：

这里的大概是以dbn为框架的，其他的就可以以此类推。具体的实现可以参考kaldi里的nnet2这部分，在rm和wsj数据上的。

3.hmm部分：这部分跟gmm-hmm一样。还是弄一个图：

最后，上面的右图就是bottleneck feature的示意图。

就这样，似乎不是很好的去理解吧。大家多实践，多看代码。希望对你有用……

最近一样在看用深度学习模型去学习特征，然后用于分类或者识别吧。只是为了用到语音里，也希望用到毕设里，这里附上一个链接：http://www.liacs.nl/~dmus/api2011.html。主要内容是: to use Deep Belief Networks to learn a feature hierarchy from unlabeled speech data.

0 0