声学模型学习笔记(三) DNN-HMM hybrid system
来源:互联网 发布:java sessionscoped 编辑:程序博客网 时间:2024/06/05 06:59
architecture
声学信号使用HMM框架建模,每个状态的生成概率使用DNN替换原来的GMM进行估计,DNN每个单元的输出表示状态的后验概率。
decoding
实际的语音识别解码的时候使用的是似然概率:
其中声学部分概率为
所以需要将DNN输出的后验概率转化为似然概率:
最终的声学概率表示如下:
training
流程如下:
- 训练CD-GMM-HMM
- 使用CD-GMM-HMM对训练语料进行维特比解码,强制对齐特征和状态
- dnn训练
dnn训练使用的准则是基于后验概率,而hmm训练的准则是基于似然概率。
tricks
1.隐层个数
隐层越多(具有更强的函数拟合能力),效果越好,超过9层基本饱和。
2.contextual window
一般使用左右相邻的特征拼接起来作为dnn的输入,一般9-13帧。
在HMM中,有观察独立性假设(任意时刻的观测至于该时刻的状态有关,与其他观测和状态无关):
实际上相邻帧是存在一定关系的,并不是完全独立的:
DNN的拼帧方法在一定程度上减弱了HMM的独立性假设,更符合实际关系。
3.对senones建模
使用cd-phone的状态比使用monophone的state建模效果更好。
4.pretraining
层数小于5的时候pretraining比较重要;当层数增加以后,pretraining收益变小,但是pretraining可以保证训练的鲁棒性,避免比较糟糕的参数初始化。
5.better alignment
更好的模型可以获得更准确的alignment,除了使用GMM-HMM的模型进行对齐,还可以使用DNN-HMM模型对训练数据进行对齐。
参考文献
《automatic speech recognition a deep learning approach》 chapter 6
0 0
- 声学模型学习笔记(三) DNN-HMM hybrid system
- 声学模型学习笔记(二) DNN
- 声学模型学习笔记(一) HMM
- 声学模型学习笔记(四) dnn speedup
- 声学模型(一) hmm声学训练流程
- 声学模型GMM-HMM训练
- 隐马尔科夫模型HMM学习(三)
- 语音识别系统的声学建模:隐马尔可夫模型(HMM)
- 声学模型学习笔记(六) representation learning
- 声学模型学习笔记(七) advanced deep models
- 语音学习笔记(四)【传统声学模型】
- Kaldi 训练一个 DNN 声学模型
- 学习笔记之HMM模型
- 【学习笔记】HMM统计模型
- 声学模型学习
- 隐马尔科夫模型(HMM)学习笔记整理与思考
- 隐马尔可夫模型(HMM)学习
- 声学模型学习笔记(五) SDT(MMI/BMMI/MPE/sMBR)
- xml介绍
- $.ajax $.getJSON在java中的跨越解决方案
- 48. Rotate Image
- Activity简单几步支持向右滑动返回
- char类型和int型可以通用
- 声学模型学习笔记(三) DNN-HMM hybrid system
- 第十五节:集合框架一(个人总结)
- UVA 11825 Hacker's Crackdown(状压dp)
- 一维数组巩固,二维数组的学习
- 【HDU】5746 Memento Mori【双指针】
- PullRefresh(自定义控件,ListView,下拉刷新,加载更多)
- 添加HTTPS验证
- 声学模型学习笔记(四) dnn speedup
- Android编程实战——仿微信群聊-5——Android端UI-多种显示的ListView