HMM经典介绍论文【Rabiner 1989】翻译(一)——介绍

来源:互联网 发布:手机淘宝历史版本 编辑:程序博客网 时间:2024/05/16 17:19

A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition
Rabiner, 1989.

尽管Markov统计方法或者Hidden Markov Model(HMM)在60年代后期70年代早期就已经出现,但是直到近几年才开始流行起来(注意:这篇文章是1989年发表的)。这有两个原因。首先,这种模型有很好的数学结构,所以可以为大量的应用形成理论基础。其次,这种模型如果使用得当,在很多重要应用中效果很好。在本文中,我们尝试回顾这类统计模型的理论层面,并介绍怎么把它们应用到语音识别的一些问题上。

1. 介绍

真实过程一般会产生可以观测到的输出,这些输出可以看做信号。这些信号可以是离散的,比如有限字母表中的字符等;也可以是连续的,比如语音样本、温度、音乐等。信号源可以是平稳的,即统计特性不随时间变化;也可以是不平稳的,即特性随时间变化。信号可能是纯的,即只来自一个信号源;也可能是被其他信号源(比如噪声)或者传出失真破坏的。

一个基本问题是用信号模型对真实信号进行建模。信号模型的重要性体现在多个方面。首先,信号模型可以提供信号处理系统的理论描述,以生成需要的输出。比如,如果我们想要加强被噪声和传输失真破坏的语音信号,我们可以用信号模型设计一个系统,这个系统可以最好地移除噪声和去除传输失真。其次,信号模型可以让我们在没有可用信号源的情况下学到关于信号源(即生成信号的真实过程)的很多东西。这个特点在从真实信号源中获取信号的代价比较大的时候尤其重要。在这种情况下,有一个好的信号模型,我们就可以仿真信号源并且通过仿真学到尽可能多的东西。最后,最重要的一点是信号模型在实际中效果非常好,可以让我们有效地实现重要的实际系统,比如预测系统、识别系统、认证系统等。

有多种信号模型可以对给定信号进行建模。大体上可以把信号模型分成确定模型和统计模型两大类。确定模型利用关于信号的某些已知特性,比如信号是正弦波。这种情况下,信号模型可以直接确定,只需要估计信号模型的参数值,比如正弦波的幅度、频率和相位。第二类信号模型是统计模型,只对信号的统计特性进行建模。这类模型包括高斯过程、泊松过程、马尔科夫过程以及隐马尔科夫过程。统计模型的基本假设是信号可以用参数化的随机过程很好地表征,并且随机过程的参数可以进行求解。

在语音处理中,确定和统计信号模型都表现良好。在本文中,我们只关心随机信号模型中的一个:HMM。我们首先回顾一下Markov链的理论,然后通过多个简单的例子引入HMM。接着,我们会重点介绍HMM的三个基本问题:给定HMM,估计观测序列的概率;确定最好的状态序列;调整模型参数以最好地解释观测信号。一旦这三个问题被解决,我们就可以用HMM解决语音识别中的实际问题了。

HMM的理论和语音识别中的应用都不是新的东西。基本理论在60年代末期70年代早期由Baum和他的同事发表在一系列经典论文中,并在70年代由CMU的Baker,IBM的Jelinek和他的同事用于语音处理。但是,HMM理论的广泛理解以及语音处理中的广泛应用是这几年的事。出现这种情况有多方面的原因。首先,HMM的基本理论发表在数学杂志上,而语音处理相关的工程师一般不会读数学杂志。其次,这个理论首次应用到语音处理上时,没有提供充分地说明材料,大多数读者无法理解这个理论,也不能把它应用到自己的研究中去。本文旨在提供HMM基本理论(由Baum和他的同事提出)的概馆和HMM实现方法中的一些细节,并说明了HMM在语音识别中不同问题上的应用。

本文组织结构如下。第2节回顾离散Markov链的理论并介绍隐状态的概念。我们通过两个简单的例子来说明理论,这两个例子分别是抛硬币、碗里面的球。我们在第3节讨论HMM的三个基本问题,并给出解决这些问题的方法。在第4节我们会讨论多种HMM类型,包括遍历和左右模型。在这一节,我们也会讨论不同的模型特征,包括观察密度函数、状态时间密度以及用于选择最优HMM参数的优化准则。第5节中我们会讨论在实现HMM时出现的问题,包括缩放、初始参数估计、模型大小、模型形式、数据丢失以及多观测序列。第6节中我们会描述孤立的单词语音识别器,并且比较HMM实现版本和其他版本之间的效果。第7节中,我们扩展第6节的想法,通过串联HMM识别单词。第8节中,我们简单介绍下HMM是如何应用到大型词典语音识别中的。在第9节中,我们对本文进行总结。

阅读全文
0 0
原创粉丝点击