语音识别入门(V1.0,内部学习资料) 语音识别入门(V1.0)

来源:互联网 发布:孙悦nba数据 编辑:程序博客网 时间:2024/06/05 19:19
 丁鹏、梁家恩、苏牧、孟猛、李鹏、王士进、王晓瑞、张世磊 中科院自动化所高创中心,北京,100080 【摘 要】本文主要以剑桥工程学院(CUED)的语音识别系统为例,并结合我们实验室自 身的研究与开发经验,讲述当前主流的大词汇量连续语音识别系统(LVCSR)的框架和相 关技术,对实验室的同学进行一个普及和入门引导。 【关键词】语音识别,HTK,LVCSR,SRI 1. 引 言 语音识别技术发展到今天, 取得了巨大的进步, 但也存在很多的问题。 本文主要以 CUED 的语言识别系统为例,说明 LVCSR 系统技术的最新进展和研究方向,对实验室的同学进行 一个普及和入门引导。 1.1 国际语音识别技术研究机构 (1)Cambridge University Engineering Department (CUED) (2)IBM (3)BBN (4)LIMSI (5)SRI (6)RWTH Aachen (7)AT&T (8)ATR (9)Carnegie Mellon University (CMU) (10)Johns Hopkins University (CLSP) 1.2 国际语音识别技术期刊 (1)Speech Communication (2)Computer Speech and Language (CSL) (3)IEEE Transactions on Speech and Audio Processing 1.3 国际语音识别技术会议 (1)ICASSP(International Conference on Acoustic, Speech and Signal Processing) 每年一届,10 月截稿,次年 5 月开会。 (2)ICSLP(International Conference on Spoken Language Processing) 偶数年举办,4 月截稿,9 月开会。 -1- 语音识别入门(V1.0,内部学习资料) (3)EuroSpeech:奇数年举办,4 月截稿,9 月开会。 1.4 国际语音识别技术评测 NIST Spoken Language Technology Evaluations Benchmark Tests (http://www.nist.gov/speech/tests/index.htm) 1.5 语音识别技术工具包 AT&T FSM Library CMU-Cambridge Statistical LM Toolkit CMU Sphinx CSLU toolkit CUED HTK Edinburgh Speech Tools Library KTH WaveSurfer MSState ASR Toolkit NIST Utility Software SPRACHcore software package SRI Language Modelling Toolkit SoX -- Sound eXchange Transcriber UCL Speech Filing System FBVIEW multi-channel audio file viewer 1.6 语音识别技术研究 语音识别技术研究目前以 CUED 最为开放和活跃, 其工具包 HTK 和相关研究组的网址 如下,通过这些网址可以链接到上述语音识别相关的网站。 http://htk.eng.cam.ac.uk/ http://mi.eng.cam.ac.uk/research/speech/ 通过参考文献的学习, 在了解相关的基础原理和研究动态之后, 可以结合实验室的发展 需求深入研究相关的核心算法。下面将简要介绍 LVCSR 的基本原理,以及国际上目前热点 研究的核心技术问题,最后给出相关领域的参考文献。 2. 语音识别基本原理 2.1 语音识别系统流程 语音识别系统的基本任务就是将输入的语音信号, 识别成文字符号输出, 基本流程如下 图所示, 基本上分成两个部分: 前端处理 (Front End Processing, FE) 搜索和解码 、 (Search and Decoding) 。其中,搜索和解码需要利用训练好的声学模型(Acoustic Model,AM) 、语言模 型(Language Model, LM) ,以及联系这两个模型的发音词典(Lexicon) 。 -2- 语音识别入门(V1.0,内部学习资料) 图一:语音识别系统基本流程图 其中, 前端处理完成的基本任务就是特征提取和归一化, 在广播语音或者电话语音等大 段语音处理中,还需要做相应的前端预处理工作,切分成语音片断输入;搜索和解码引擎是 整个识别器的主要算法所在,主要采用 Viterbi 搜索算法等动态规划方法,搜索在给定模型 情况下的最优结果; 语言和声学模型则是通过统计方法训练得到的, 发音词典是将这两个模 型联系起来的桥梁。 2.2 语音识别的统计模型描述 语音识别系统首先将输入语音提取成为特征向量序列 X 1T , 目标是给出特定声学和语言 模型下的最大后验词串 W1N ,即 W1N = arg max{P(W1N | X 1T , AM , LM , Lex)} W1N = arg max{ W1N P( X 1T | W1N ) * P(W1N ) } P( X 1T ) = arg max{P( X 1T | W1N ) * P(W1N )} W1N = arg max{LogP ( X 1T | W1N ) + λ * LogP(W1N )} W1N 其中,第二个等式中略去了 AM、LM 和 Lex,第三个等式略去 P ( X 1T ) 主要是因为该项 不影响 W1N 的选择, 第四个等式用对概率取对数也不影响对 W1N 的选择, 主要用于控制动态 因为声学和语言模型是用不同语料独立训练 范围, 参数 λ 用于平衡声学和语言模型的权重, 的。 LogP ( X 1T | W1N ) 为声学得分, LogP (W1N ) 为语言得分,分别用相应的声学和语言模型 计算,语言模型概率具体计算如下: -3- 语音识别入门(V1.0,内部学习资料) P(W1N ) = P (W1 ) * P(W2 | W1 ) *...* P(WN | W1N 1 ) 1 1 ≈ P(W1 ) *...* P(Wk | WkkM +1 ) *...* P(WN | WNNM +1 ) 1 =∏ P(Wk |WkkM +1 ) k=1 N 其中,第一个等式是联合概率的展开,第二个是用 M-Gram 近似计算,第三个等式是第 二个等式的简写形式。声学模型概率具体计算如下: P ( X 1T | W1N ) = P( X 1T | H1L ) T S1 = ∑ P ( X 1T , S1T | H1L ) ≈ max{P ( X 1T , S1T | H1L )} T S1 = ∏ P ( X t | St ) * P( St | St 1 ) t =1 T 其中,第一个等式是利用 Lex 信息将词串 W1N 转换成音素模型串 H1L ,该模型串为隐马 尔可夫模型(HMM) ;第二个等式引入隐含声学状态序列 S1T ,包含模型的时间对齐信息, 用于计算声学得分;第三个等式为 Viterbi 近似,用“最优”状态序列近似求和式,便于引 入动态规划算法搜索最优识别结果;第四个等式将状态跳转概率 P ( S1T | H1L ) 和观测序列概 率 P ( X 1T | S1T , H1L ) 分开计算, 并略去 H1L 符号, 因为模型已经确定; 每帧观测概率 P( X t | St ) 通常由混合高斯模型(Gaussian Mixture Model, GMM)描述: 2 P ( X t | St ) = ∑ Ci * N ( X t ; μ St ,i , σ St ,i ) i =1 M 其中, Ci 为混合项系数,M 为混合项数, N ( X t ; μ St ,i , σ St ,i ) 为第 i 个单高斯分布混合 2 项。声学模型的 HMM 描述如下图所示: 图二:典型的 HMM 声学模型结构图 -4- 语音识别入门(V1.0,内部学习资料) 图中,声学模型是由 5 个状态构成:第 1 个和第 5 个状态只起到连接作用,没有观测概 率; 中间的 2、 4 状态具有 GMM 描述的观测概率分布。 3、 模型是一个从左到右的跳转结构, 每个跳转有一个概率,这样,每个音素的发音特征就由这样一个模型描述。 2.3 语音识别的模型训练 在通常情况下, 语音识别的解码器搜索错误相对比较低, 语音识别的准确率主要取决于 声学和语言模型的精度。模型精度主要取决于两个方面:一是训练语料的规模和质量,二是 训练的工具和算法。 一、声学模型训练 声学模型训练就是利用带标注的训练语料, 训练每个音素的发音 HMM 模型。 声学模型 训练需要考虑两个基本因素: 一是模型的精度, 即模型要尽可能精细, 以提高系统的识别率; 二是模型的鲁棒性,即模型的参数必须得到比较好的估计,有足够的训练参数,确保模型对 训练集外的数据具有足够的泛化能力。 通常模型需要考虑这两个方面因素的折中, 达到比较 好的效果。 目前的 LVCSR 系统通常采用音素作为基本的建模单元,为了提高建模精度,通常要选 用上下文相关的音素模型(Context Dependent Phone Model) ,即对不同声学上下文下的音素 建立不同的模型。为了保证鲁棒性,通常需要对模型参数进行共享,这种共享的方法,通常 是通过决策树分裂的方式,根据给定的上下文问题集,进行自顶向下的分裂,确保训练集中 样本很稀疏的模型可以得到鲁棒地估计。 声学模型训练的过程, 实际上就是对训练数据的拟合过程, 最基本的方法就是最大似然 (Maximum Likelihood, ML)的方法,通过 Baum-Welch 的 EM 算法,迭代优化模型参数 得到。其它的区分度准则,如 MMI 和 MPE 准则也可以用于优化模型,提高模型精度。 为了提高声学模型的精度,通常需要做一些特征归一化、噪声抑制等算法,提高声学模 型对声道、说话人、加性噪声等因素的鲁棒性。另外,自适应技术也用于提高系统对环境和 说话人的自适应能力,提高系统的性能。声学模型训练的典型工具就是 HTK 工具包。 二、语言模型训练 语言模型训练和声学模型训练类似, 利用大量的文本语料对模型参数进行估计, 对于稀 疏的数据,采用回退和平滑技术,提高模型对训练集外语言现象的估计能力。 语言模型训练典型的工具包有 SRILM 和 HTKLM,都可以对语言模型进行训练。 3. 语音识别系统核心技术 3.1 前端预处理技术 在进行广播新闻或者电话、会议录音等语料时,往往需要对大段的语料进行预处理,切 分成适合语音识别系统处理的片断。预处理主要完成功能为: (1)语音切分 (2)语音/非语音判别 (3)宽窄带判别 (4)男女声判别 (5)说话人聚类 (6)音乐片断剔除 -5- 语音识别入门(V1.0,内部学习资料) 语音预处理的性能对语音识别的效果有比较大的影响,是实用系统中不可缺少的模块。 3.2 特征提取和归一化技术 语音特征提取和归一化技术主要是将语音提取成为特征,常用的特征为 MFCC 特征和 PLP 特征,在特征提取基础上,通常需要进行一定的归一化,如: (1)均值归一化 CMN,主要降低信道影响 (2)方差归一化 CVN,主要降低加性噪声影响 (3)声道长度归一化 VTLN,主要降低声道差异造成的影响 (4)高斯化 Gaussianization,是 CMN+CVN 的推广算法。 (5)抗噪算法,降低背景噪声对系统性能影响,如 AWF 和 VTS 等 鲁棒性是语音识别系统的一个主要问题, 在特征层次提高系统鲁棒性是一个主要研究热 点,对语音识别系统性能的影响比较显著。 3.3 线性变换技术 在通常的语音识别系统中, 混合高斯模型采用的是对角方差的建模方法, 即认为特征向 量的各维分布是相互独立的,这实际上只是一种近似。为了提高系统的精度,通常需要对特 征进行解相关线性变换,或者,利用高维特征进行区分性投影降维,达到同样的效果。这种 方法从原理上说等效于全方差建模,但是,变换矩阵的估计方法比较容易实现。主要的线性 变换算法如下: (1)STC (2)HLDA (3)EMLLT (4)SPAM 这些线性变换的方法对提高系统模型精度,进而提高系统性能具有显著作用。 3.4 自适应技术和自适应训练 通常语音识别系统的应用环境与训练语料具有不同程度的不匹配性, 这在很大程度上影 响了系统的性能,因此,往往需要进行一定的声学模型自适应,以得到比较好的识别效果。 自适应可以在特征层实现,也可以在模型层实现,这里主要讲模型层的自适应技术。目前主 要的声学模型自适应技术包括: (1)MAP (2)MLLR (3)CMLLR 在做声学模型自适应时,可以对环境和说话人的特点进行一定程度的自适应,这样,从 原理上说,就可以将“通用”的声学模型,自适应到相对“专用”的场合下,提高性能。这 样, “通用”模型如果能够去掉训练预料中的说话人和环境相关信息,则可以得到更好的模 型,这就是自适应训练的基本方法。目前自适应训练基本的方法就是 CMLLR 的方法。 3.5 区分度训练技术 基于最大似然准则的模型训练方法, 是声学模型训练的最基本的方法, 具有一套成熟的 实现算法,Baum-Welch 的 EM 算法,通过迭代估计模型参数,对训练语料进行最大似然 拟合。基于区分度准则的方法,则直接从降低系统识别错误的角度出发,对声学模型参数进 行优化,在优化过程中,不但要考虑识别结果本身的似然度,还要考虑与之竞争的路径的似 -6- 语音识别入门(V1.0,内部学习资料) 然度,提高整个系统的声学区分能力,从而降低系统识别错误。区分度训练的准则通常包括 以下几个: (1)MMI 准则 (2)MPE 准则 (3)fMPE 方法 区分度准则下的模型优化,与 MLE 准则下的声学模型训练最大的区别在于需要考虑竞 争路径的信息, 优化的目标函数也比较复杂, 不能直接用 BW 算法, 而需要采用扩展的 EBW 算法实现模型参数的优化。 在小规模情况下,MCE 准则也通常被使用,但在大词汇量连续语音识别系统中,通常 采用 MPE 的准则。区分度训练的方法,对语音识别系统性能提高具有显著影响,是目前主 流系统都采用的方法。 3.6 轻监督训练技术 在进行广播、电话语音识别时,往往会遇到语料不充分的问题,很难得到足够的精标数 据进行模型训练(有监督训练) ,因此,需要研究更好的方法,利用字幕(Close Caption) 信息训练声学模型。 3.7 后处理技术 不同的语音识别系统在性能上有不同的差异, 即使性能相近的系统, 识别结果也有差异。 利用不同的识别结果进行整合,提高系统整体性能。目前主要的后处理方法有: (1)ROVER (2)CNC 3.8 解码技术 解码技术是语音识别系统的核心技术, 主要在于词图生成上, 不同的系统具有不同的性 能。在上述各种建模方法发挥到最大的情况下,模型精度造成的系统性能差异不大,而搜索 生成的词图的质量,对后续处理具有重要影响。 3.9 口语语言模型建模 利用网络文本信息建立口语语言模型, 提高系统处理口语语音的能力, 也是目前语音识 别系统研究的一个方向。 3.10 置信度计算 置信度计算在检测类问题中比较重要,在后处理、无监督自适应、轻监督训练中也具有 重要应用,也是目前一个比较难解决的问题。目前在 LVCSR 系统中置信度基本上都采用基 于词图后验概率的计算方法,而在关键词检测系统中则以声学置信度为主。 -7- 语音识别入门(V1.0,内部学习资料) 4. 参考文献 HMM 基础教程 [1] Bilmes, “A Gentle Tutorial of the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models”, ICSI 1998. [2] Rabiner, “A tutorial on HMM and Selected Applications in Speech Recognition”, IEEE Proc. 1989. [3] Huang, X.D., “Hidden Markov Models” [4] Young, “A review of LVCSR”, 1996. 声学模型 [5] Odell, J. J., "The Use of Context in Large Vocabulary Speech Recognition ", Ph.D. thesis, University of Cambridge, Cambridge, UK, 1995. [6] 高升, "语境相关的升学模型和搜索策略的研究",中科院自动化所博士学位论文,2001. 搜索技术 [7] Ney, H. and S. Ortmanns, "Progress in Dynamic Programming Search for LVCSR", Proceedings of the IEEE, Vol. 88, NO. 8, August 2000. [8] Ortmanns, S., H. Ney, and X. Aubert, "A word graph algorithm for large vocabulary continuous speech recognition", Computer, Speech, and Language, vol. 11, no. 1, pp. 43-72, Jan. 1997. [9] Aubert, X., "An overview of decoding techniques for large vocabulary continuous speech recognition", Computer Speech and Language (2002) 16, 89-114. 语言模型 [10] Chen, S. F. and Goodman, J, "An Empirical Study of Smoothing Techniques for Language Modeling", Computer Science Group Harvard University, Cambridge, Massachusetts, 1998 [11] Stolcke, A., "Entropy-based Pruning of Backoff Language Models", Proc. DARPA Broadcast News Transcription and Understanding Workshop, pp. 270-274, Lansdowne, 1998 [12] Rosenfeld, R., "Two decades of statistical language modeling: Where do we go from here", Proc. IEEE 88 (8), 1270–1278, 2000 预处理技术 [13] J. Ajmera, “Robust Audio Segmentation,” Doctor Thesis, 2004. [14] T. Hain, S.E. Johnson, A. Tuerk, P.C.Woodland, et S.J.Young. "Segment generation and clustering in the HTK Broadcast news transcription system", DARPA BN Workshop, 1998. [15] Lie Lu, Hong-Jiang Zhang, Stan Li, "Content-based Audio Classification and Segmentation by Using Support Vector Machines". ACM Multimedia Systems Journal 8 (6), pp. 482-492, March, 2003. -8- 语音识别入门(V1.0,内部学习资料) 鲁棒特征 [16] Pedro J. Moreno, etc "A Vector Taylor Series Approach for Environment-Independent Speech Recognition", ICASSP96. [17] Gales, "Model-Based Techniques for Noise Robust Speech Recognition", Ph.D. thesis, University of Cambridge, Cambridge, UK, 1995. [18] Gales, "Robust speech recognition in additive and convolutional noise using parallel model combination", CSL 1995. [19] Huang, X.D., “Speech Signal Representations” 置信度计算 [20] Wessel, F., "Word Posterior Probabilities for Large Vocabulary Continuous Speech Recognition", Ph.D. Thesis,2002. 线性变换 [21] M.J.F. Gales, "Semi-Tied Covariance Matrices for Hidden Markov Models", IEEE Trans, VOL. 7, NO. 3, MAY 1999 [22] M.J.F. Gales, "Maximum Likelihood Multiple Subspace Projections for Hidden Markov Models", IEEE Trans, VOL. 10, NO. 2, FEB. 2002 [23] R. A. Gopinath, "Constrained Maximum Likelihood Modeling with Gaussian Distributions", Proc. of ARPA Workshop on Human Language Understanding, January, 1998 [24] N. Kumar, A.G. Andreou, "Heteroscedastic discriminant analysis and reduced rank HMMs for improved speech recognition", Speech Communication 26 (1998) 283-297 自适应技术 [25] C.J. Leggetter, P.C. Woodland, "Speaker Adaptation of HMMs Using Linear Regression", CUED/F-INFENG/TR.181, June 1994 [26] M.J.F. Gales, "Maximum likelihood linear transformations for HMM-based speech recognition", Computer Speech and Language (1998) 12, 75–98 [27] T. Anastasakos, el. al., "A Compact Model for Speaker-Adaptive Training", ICSLP 96 [28] Gauvain, “Maximum a Posteriori Estimation for Multivariate Gaussian Mixture Observations of Markov Chains”, IEEE Trans. 1994. 后处理技术 [29] Jonathan G. Fiscus, "A POST-PROCESSING SYSTEM TO YIELD REDUCED WORD ERROR RATES: RECOGNIZER OUTPUT VOTING ERROR REDUCTION (ROVER) ",National Institute of Standards and Technology,1997 [30] Lidia Mangu, Eric Brill and Andreas Stolcke, "Finding consensus in speech recognition word error minimization and other applications of confusion networks", Computer Speech and Language (2000) 14, 373–400 -9- 语音识别入门(V1.0,内部学习资料) 轻监督训练 [31] L. Lamel, J. L. Gauvain, and G. Adda, "Lightly Supervised and Unsupervised Acoustic Model Training," Computer, Speech and Language, 16(1):115-229, January 2002. [32] F. Wessel and H. Ney, "Unsupervised training of acoustic models for large vocabulary continuous speech recognition," Proc. IEEE Automatic Speech Recognition and Understanding Workshop, ASRU'01, Madonna di Campiglio, December 2001. [33] L. Nguyen & B. Xiang, “Light Supervision in Acoustic Model Training,” Proc. ICASSP, 2004. 区分度训练 [34] Povey, D., "Discriminative Training for Large Vocabulary Speech Recognition", Ph.D. thesis, University of Cambridge, Cambridge, UK, 2004. [35] Povey, D., "Discriminative Training for Speech Recognition", ICASSP 2002. [36] Povey, D., "Discriminatively Trained Features for Speech Recognition" [37] Woodland, P.C., "Large scale discriminative training of hidden Markov models for speech recognition", Computer Speech and Language, 2002. [38] Juang, B.-H., "MCE Methods for Speech Recognition", IEEE Trans. 1997. - 10 -
0 0
原创粉丝点击