文章学习《语音识别的前世今生|深度学习彻底改变对话式人工智能》
来源:互联网 发布:网络词安利是什么意思 编辑:程序博客网 时间:2024/06/04 17:45
语音识别的研究和发展情况基本分为三个主要时期:
2011年之前
没什么进展
2011年—2014年
第一个基于深度学习的语音识别系统。此后有了更多的数据,云计算后,一些公司均采用深度学习技术。
2015年至今
递归神经网络与注意力模型、记忆网络以及其他技术一起,掀起了第三次发展的浪潮。
机器所识别的语音可能包括一部分噪声,所以要求其能够从噪声中提取出与对话相关的部分并将其转化为有意义的文字。
语音识别系统的基本构造块
语音识别基本分为三个部分:
- 信号位准:信号位准的目的是提取语音信号并增强信号(如果有必要的的话),或是进行适当预处理、清理和特征提取。
- 噪声位准:噪音位准的目的在于将不同的特征划分成不同的声音。换句话说,声音本身并不能提供一个足够精准的标准,而有时我们将次于原声的声音称为声学标准。
- 语言位准:因为我们假设这些声音都是人类所产生而且是有意义的,因此我们可以把这些声音组合成词语,然后把这些词语组合成句子。
评级标准
人们对语音识别系统的评价都基于一个名为配电盘(SWBD)的行业标准。(SWBD)是一个语音语料库,整合了电话中的即兴对话,包含音频和人声的副本。
语音识别系统的评价标准主要基于其误字率(WER),误字率是指语音识别系统识别错误的单词有多少。
从2008年得到2011年,误字率一直处于一个稳定的状态,位于23%到24%之间;深度学习从2011年开始出现时,误字率从23%降低至5.5%。
在信号位准中,有着不同的基于神经模型从信号中提取和增强语音本身的技术。同时,还有能够用更加复杂高效的基于神经模型的方法取代经典特征提取方法的技术。
声音和语言位准也包含有各种各样不同的深度学习技术,无论是声音等级分类还是语言等级分类,都采用了不同类型基于神经模型的架构。
阅读全文
0 0
- 文章学习《语音识别的前世今生|深度学习彻底改变对话式人工智能》
- 【人工智能】人工智能在深度学习领域的前世今生
- 人工智能在深度学习领域的前世今生
- 深度学习的前世今生
- 神经网络与深度学习的“前世今生”
- 张志华:深度学习的今生前世
- 互联网世界的“人工智能”——探秘“深度学习”的前世今生
- 互联网世界的“人工智能”——探秘“深度学习”的前世今生
- 互联网世界的“人工智能”——探秘“深度学习”的前世今生
- 互联网世界的“人工智能”——探秘“深度学习”的前世今生
- 互联网世界的 “人工智能”——探秘 “深度学习” 的前世今生
- 互联网世界的“人工智能”——探秘“深度学习”的前世今生
- AI理论学习笔记(一):深度学习的前世今生
- 这六段代码隐藏着深度学习的前世今生!
- 这六段代码隐藏着深度学习的前世今生!
- 【深度学习】Inception的前世今生(三)--Inception V3
- 机器学习的前世今生:一部气势恢宏的人工智能发展史
- 深度学习颠覆了对话人工智能
- 在HTML文档中class名以及id名的命名规则
- 浅谈区块链
- JavaScript 基本类型和引用类型的区别
- IDEA debug 断点无效
- VPN网关最佳实践系列(一)如何让VPC之间互通
- 文章学习《语音识别的前世今生|深度学习彻底改变对话式人工智能》
- Maven的生命周期
- 收获,不止SQL优化——抓住SQL的本质--第十六章
- gcd,扩展gcd
- 个人努力是成功的要素?
- JS解析XML文件和XML字符串
- C#有关字符串的分割,替换,截取
- 快速排序最好,最坏,平均复杂度分析
- [笔记分享] [Display] MIPI 协议之DSI