spoken language processing 总结概要

来源:互联网 发布:淘宝怎么提前收款 编辑:程序博客网 时间:2024/06/07 03:12

绪论总结:语音处理三大技术:1.语音识别; 2.文本语音转换;  3.语音理解;

章节一:

               a.语言框架:1.规定了人耳可以接受的语音能量范围以及频率与能量之间的关系;2. 语音的产生以及人耳感知系统构造;3.频域与bark域和Mel域之间的转换;3.人耳掩蔽效应(噪音掩蔽语音门限和语音掩蔽噪音门限);

               b.语音学和音韵学介绍(语言学范畴):1.以英文为基础的音素介绍(元音、辅音、半元音)以及其他语言类型介绍;2.音位变体的影响;3.语速和协同发音的影响;4,音节和单词;5.词类和词性(动词名词等等);6.词态;7.单词分类;8.语法和语义;9.短语图解;10.主从句分析;11.语义类型;12.词汇语义的固定(lexical semantics);13.逻辑语句;(注意:了解这些概念);

               c. 概率与数理统计介绍,信息论介绍(这里不赘述);

               d. 模式识别基本知识点:1.贝叶斯判决定理;2.最小差错率判决规律;3.构造分类器(高斯分类器、比较分类器);4.区分性训练(最大互信息估计、最小差错率估计、神经网络);5.无监督估计方法(矢量量化、EM算法、多元高斯混合密度估计);6.分类回归树介绍(问题集选择、分裂标准);7.树的增长;8.价值丢失和冲突解决;9.复杂问题以及树的规范大小;10.最小代价复杂度修剪;11.独立测试样本估计;12.交叉验证;(注意:弄清这些基本概念)

章节二:

               a. 数字信号处理(基础知识点,自行了解,本书介绍得很全面)(基本信号、重采样、傅里叶变换、自相关、滤波、加窗、D/A和A/D、随机过程处理)

               b.语音信号基本知识点:1.频谱分析(短时傅里叶变换);2.产生语音的声学模型(信源滤波-线性预测编码分析);3.倒谱分析(MEL倒谱域和感知线性预测);

                                                          4.共振峰分析;5.基音检测;

               c.语音编码:1.几种不同的语音波形编码技术:PCM---线性脉冲编码调制(采样量化)、μ-law and A-law PCM、适应性PCM(APCM)、适应性差分量化PCM(ADPCM)、CELP(代码激励线性预测);

章节三:

3.1 语音识别

               a. 马尔科夫模型:一阶马尔科夫链公式(假定当前时刻只与前一时刻有关)

                                                

 以上图为例,总共有三个状态,假设每个状态的初始概率为(0.5,0.2,0.3),那么连续5天都是上升状态的概率为(0.5*0.6*0.6*0.6*0.6),相应地观察的状态序列为(1,1,1,1,1)。

              b.隐马尔科夫模型:当所观察的状态不再是确定的,而是随机时,成为隐马尔科夫模型;

                                            

              c.动态时间规划(DTW):优点:一旦子问题解决,局部结果就会被保存且不需要再计算(适用于小词汇量的语音识别)

              d.隐马尔科夫模型(HMM)的评估---前向栅格算法以及维特比算法(将动态规划应用于HMM或者改进的前向算法中,寻找最优路径)

              e.HMM参数估计-------Baum-Welch算法;

              f. 连续混合密度HMM和半连续HMM(在运用连续HMM进行语音识别时,不必将连续空间映射到离散空间,减少了量化错误);

              g. HMM实际应用问题:HMM为无监督训练,且初始值的选取很重要(可使局部最优变为全局最优),对于离散HMM,选择服从均匀分布的值作为初始化,对于连续混合HMM,选用高斯分布值。

              h. HMM模型的拓扑结构选择标准;

              i. 训练标准:运用最多的是最大似然估计准则(MLE),还有MCE(最小分类错误准则)和MMIE(最大互信息估计)准则可应用于中小型词汇的语音识别;

              j. 删除插值法:目的是使用更一般化的语音独立模型去平滑语音相关模型,操作是篡改两种模型,使用交叉验证的方法来估计被篡改的权重;

             k. 解决训练数据不够的办法:对于连续混合HMM模型,可用平滑协方差矩阵的方法;


3.2 声学模型:

             a. 语音信号的易变性:语境变化(同一个音素放在不同单词中会产生不同效果)、语速变化(语速影响识别率)、发音者的变化(个体差异)、环境差异(噪声环境)

             b. 语音识别错误率估计;

             c. 信号处理(特征值提取)(信号采集-----端点检测(算法or人为设置开关)-----MFCC特征值提取-----特征值转换(降维操作))

             d. 语音建模---选取合适的建模单元:单元要求:精准(可代表出现在不同语境中的声音)、可训练、一般性;不同训练单元的比较(单词----适用于小词汇识别(精准可训练),音素(可训练一般化不精准),音节(中文1200个,日文50,英文30000))

             e. 语境相关模型可提高识别率---如三音素模型(语气的轻重也会产生不同的频谱效果)、集群三音素、全音素;

未完待续……

          


GMM-HMM 模型需要补充知识点:EM算法,维特比算法 和动态规划(解GMM-HMM模型)   


  






 

                                                       


原创粉丝点击