文章学习《语音识别的前世今生|深度学习彻底改变对话式人工智能》

来源：互联网发布：网络词安利是什么意思编辑：程序博客网时间：2024/06/04 17:45

2011年之前
没什么进展
2011年—2014年
第一个基于深度学习的语音识别系统。此后有了更多的数据，云计算后，一些公司均采用深度学习技术。
2015年至今
递归神经网络与注意力模型、记忆网络以及其他技术一起，掀起了第三次发展的浪潮。

机器所识别的语音可能包括一部分噪声，所以要求其能够从噪声中提取出与对话相关的部分并将其转化为有意义的文字。

语音识别基本分为三个部分：

人们对语音识别系统的评价都基于一个名为配电盘（SWBD）的行业标准。（SWBD）是一个语音语料库，整合了电话中的即兴对话，包含音频和人声的副本。
语音识别系统的评价标准主要基于其误字率（WER），误字率是指语音识别系统识别错误的单词有多少。

从2008年得到2011年，误字率一直处于一个稳定的状态，位于23%到24%之间；深度学习从2011年开始出现时，误字率从23%降低至5.5%。

在信号位准中，有着不同的基于神经模型从信号中提取和增强语音本身的技术。同时，还有能够用更加复杂高效的基于神经模型的方法取代经典特征提取方法的技术。
声音和语言位准也包含有各种各样不同的深度学习技术，无论是声音等级分类还是语言等级分类，都采用了不同类型基于神经模型的架构。

阅读全文

0 0