值得关注议题：语音识别-框架与技术

来源：互联网发布：淘宝短信催付款话术编辑：程序博客网时间：2024/05/18 12:39

源文章：梁家恩的云知声 http://www.csdn.net/article/2014-01-24/2818252

评记：很早就想了解语音方面的东西，苦于知识杂乱一直未深入，这篇文章倒是给出了典型的事例。遂记之。

总体框架

1、总体来说，语音技术一共有三大部分：语音识别、语义理解和语音合成，三部分形成一个完整的闭环。相较而言，语音识别是更为复杂的技术，云知声前期便从语音识别技术出发开始往外扩展。

2、语音技术的两个维度：搜索技术----在知识库和语音模型之间进行搜索，找到一条词与词之间相匹配的路，找到概率最大的词；

语音统计模型 ----隐马尔可夫统计模型：包含特征提取、模块解码器、知识库、声学模型及其识别算法共计五部分，据说是李开复先生的大作。

功能部分

1、语音搜索

但语音的搜索和搜索引擎的区别在于语音搜索是要找一个概率最大的文本，也就是找到与你说出来的声音信号最匹配的文本信号，

这本质上是一个概率统计问题。

搜索过程是对一个大网络中不同的词汇间的关系展开的：比如中文里有40万个词，不同词间的关系（链接）代表不同的网络状态；

每一个词可作为节点，任何一个词都可能走到其它节点，这叫一条通路。搜索的目的就是找出最佳通路。

2、特征提取--提取特征信号与噪声处理

提取特征信号：将语音经由信号处理转换成模块输入，根据频段直接将声压信号转换成数字信号，提取出直接能反映说话内容的特征

噪声处理：使声音能被识别器很好识别

3、模块解码器

将特征提取过程中提取的特征输入系统，在知识库、声学模型里进行搜索，最终输出识别结果。

4、知识库

语音样本，并通过这些样本数据可训练出一个语音识别系统。

5、搜索算法

通常采用高斯混合算法解决声音匹配问题，在微软提出深度神经学习技术后，云知声算法团队也将高斯混合算法换成了深度神经网络模型，

并发现它在解决声学匹配方面更好，理论上和人脑神经感知的方式相当接近。

因为需要以很快的速度识别出说话的内容，所以深度神经网络不仅对解码器也提出了很大挑战，对硬件的要求非常高。

云知声在认真研究微软的代码之后，改写实现效率低的代码，再利用最新的 CPU提供的特性，计算量大的部分均采用汇编语言写到CPU处理能力强

的地方，并一层一层优化。

0 0