spoken language processing 总结概要

来源：互联网发布：淘宝怎么提前收款编辑：程序博客网时间：2024/06/07 03:12

绪论总结：语音处理三大技术：1.语音识别； 2.文本语音转换； 3.语音理解；

章节一：

a.语言框架：1.规定了人耳可以接受的语音能量范围以及频率与能量之间的关系；2. 语音的产生以及人耳感知系统构造；3.频域与bark域和Mel域之间的转换；3.人耳掩蔽效应（噪音掩蔽语音门限和语音掩蔽噪音门限）；

b.语音学和音韵学介绍（语言学范畴）：1.以英文为基础的音素介绍（元音、辅音、半元音）以及其他语言类型介绍；2.音位变体的影响；3.语速和协同发音的影响；4，音节和单词；5.词类和词性（动词名词等等）；6.词态；7.单词分类；8.语法和语义；9.短语图解；10.主从句分析；11.语义类型；12.词汇语义的固定（lexical semantics）；13.逻辑语句；（注意：了解这些概念）；

c. 概率与数理统计介绍，信息论介绍（这里不赘述）；

d. 模式识别基本知识点：1.贝叶斯判决定理；2.最小差错率判决规律；3.构造分类器（高斯分类器、比较分类器）；4.区分性训练（最大互信息估计、最小差错率估计、神经网络）；5.无监督估计方法（矢量量化、EM算法、多元高斯混合密度估计）；6.分类回归树介绍（问题集选择、分裂标准）；7.树的增长；8.价值丢失和冲突解决；9.复杂问题以及树的规范大小；10.最小代价复杂度修剪；11.独立测试样本估计；12.交叉验证；（注意：弄清这些基本概念）

章节二：

a. 数字信号处理（基础知识点，自行了解，本书介绍得很全面）（基本信号、重采样、傅里叶变换、自相关、滤波、加窗、D/A和A/D、随机过程处理）

b.语音信号基本知识点：1.频谱分析（短时傅里叶变换）；2.产生语音的声学模型（信源滤波-线性预测编码分析）；3.倒谱分析（MEL倒谱域和感知线性预测）；

4.共振峰分析；5.基音检测；

c.语音编码：1.几种不同的语音波形编码技术：PCM---线性脉冲编码调制（采样量化）、μ-law and A-law PCM、适应性PCM（APCM）、适应性差分量化PCM（ADPCM）、CELP（代码激励线性预测）；

章节三：

3.1 语音识别

a. 马尔科夫模型：一阶马尔科夫链公式（假定当前时刻只与前一时刻有关）

以上图为例，总共有三个状态，假设每个状态的初始概率为（0.5,0.2,0.3），那么连续5天都是上升状态的概率为（0.5*0.6*0.6*0.6*0.6）,相应地观察的状态序列为（1,1,1,1,1）。

b.隐马尔科夫模型：当所观察的状态不再是确定的，而是随机时，成为隐马尔科夫模型；

c.动态时间规划（DTW）：优点：一旦子问题解决，局部结果就会被保存且不需要再计算（适用于小词汇量的语音识别）

d.隐马尔科夫模型（HMM）的评估---前向栅格算法以及维特比算法（将动态规划应用于HMM或者改进的前向算法中，寻找最优路径）

e.HMM参数估计-------Baum-Welch算法；

f. 连续混合密度HMM和半连续HMM（在运用连续HMM进行语音识别时，不必将连续空间映射到离散空间，减少了量化错误）；

g. HMM实际应用问题：HMM为无监督训练，且初始值的选取很重要（可使局部最优变为全局最优），对于离散HMM，选择服从均匀分布的值作为初始化，对于连续混合HMM，选用高斯分布值。

h. HMM模型的拓扑结构选择标准；

i. 训练标准：运用最多的是最大似然估计准则（MLE），还有MCE（最小分类错误准则）和MMIE（最大互信息估计）准则可应用于中小型词汇的语音识别；

j. 删除插值法：目的是使用更一般化的语音独立模型去平滑语音相关模型，操作是篡改两种模型，使用交叉验证的方法来估计被篡改的权重；

k. 解决训练数据不够的办法：对于连续混合HMM模型，可用平滑协方差矩阵的方法；

3.2 声学模型：

a. 语音信号的易变性：语境变化（同一个音素放在不同单词中会产生不同效果）、语速变化（语速影响识别率）、发音者的变化（个体差异）、环境差异（噪声环境）

b. 语音识别错误率估计；

c. 信号处理（特征值提取）（信号采集-----端点检测（算法or人为设置开关）-----MFCC特征值提取-----特征值转换（降维操作））

d. 语音建模---选取合适的建模单元：单元要求：精准（可代表出现在不同语境中的声音）、可训练、一般性；不同训练单元的比较（单词----适用于小词汇识别（精准可训练），音素（可训练一般化不精准），音节（中文1200个，日文50，英文30000））

e. 语境相关模型可提高识别率---如三音素模型（语气的轻重也会产生不同的频谱效果）、集群三音素、全音素；

未完待续……

GMM-HMM 模型需要补充知识点：EM算法，维特比算法和动态规划（解GMM-HMM模型）

阅读全文

0 0