端到端语音识别(一) 概况
来源:互联网 发布:壁纸桌面软件 编辑:程序博客网 时间:2024/06/05 19:23
传统方法的局限性[1]
HMM
Markovian Assumption
转移概率只跟前一个时刻有关,无法对长时依赖性建模。
Conditional Independence Assumption
帧的生成概率只跟当前状态有关,跟历史状态和历史帧无关。
DNN
alignment
DNN的声学模型用来求输出状态对应的后验概率。需要用到GMM的对齐结果,来获得每一帧的label。首先需要GMM的对齐结果比较准确,其次是本身语音的边界不好界定,这样每一帧给一个指定label本身值得商榷。
Conditional Independence Assumption
和HMM类似,有独立性的假设。
Dict
词典和音素本身是handcrafted的
End to End实现方法[2]
end to end的语音识别主要有两种方法来实现
- 基于CTC的训练准则
CTC训练准则的引入抛弃了传统的HMM框架,输出的粒度可以到phone/charactor/word等。但是仍然有输出独立性的假设,使用的时候对于语言模型的依赖性比较强。
- 基于sequence to sequence和attention
虽然这种方式可以学习到word之间的关系,但是毕竟训练语料的transcription有限,所以额外的语言模型使用还是比较有必要。
end to end的语音识别框架在一定程度上减少了传统方法不合实际的假设,但是也存在训练困难的问题,为了取得比较好的效果,需要的训练语料也更多;而基于传统的DNN-HMM hybrid系统的方法可以得到更稳定的性能。
Reference
[1].End-to-End Speech Recognition Models
[2].Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin
0 0
- 端到端语音识别(一) 概况
- 语音合成vocoder(一) 概况
- Sphinx 离线语音识别研究(一)
- 语音识别之portaudio入门教程(一)
- 走进语音识别中的WFST(一)
- 百度语音识别学习(一)
- 语音识别学习笔记(一)【概述】
- 语音识别 特征提取(一)
- Kaldi语音识别学习笔记(一)
- 走进语音识别中的WFST(一)
- Hadoop(一)概况
- Spring(一)概况
- android 语音识别 语音手电(一)
- 语音识别原理--理论基础(一)
- 语音识别基础篇(一)
- 小程序 语音识别(一)
- 端到端语音识别(二) ctc
- 端到端语音识别(四) raw wavform
- Android GIF播放,MP4资源播放笔记
- CentOS7 安装ftp
- C#学习笔记(三)
- Android Bitmap工具方法;
- java8600手机
- 端到端语音识别(一) 概况
- cin cin.get cin.getline getline getchar
- 设计模式
- OSI七层
- 端到端语音识别(二) ctc
- 视频笔记截图
- c中的指针数值交换
- java基础知识复习
- jQuery中的validate校验