HMM经典介绍论文【Rabiner 1989】翻译（一）——介绍

来源：互联网发布：手机淘宝历史版本编辑：程序博客网时间：2024/05/16 17:19

A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition
Rabiner, 1989.

尽管Markov统计方法或者Hidden Markov Model（HMM）在60年代后期70年代早期就已经出现，但是直到近几年才开始流行起来（注意：这篇文章是1989年发表的）。这有两个原因。首先，这种模型有很好的数学结构，所以可以为大量的应用形成理论基础。其次，这种模型如果使用得当，在很多重要应用中效果很好。在本文中，我们尝试回顾这类统计模型的理论层面，并介绍怎么把它们应用到语音识别的一些问题上。

1. 介绍

真实过程一般会产生可以观测到的输出，这些输出可以看做信号。这些信号可以是离散的，比如有限字母表中的字符等；也可以是连续的，比如语音样本、温度、音乐等。信号源可以是平稳的，即统计特性不随时间变化；也可以是不平稳的，即特性随时间变化。信号可能是纯的，即只来自一个信号源；也可能是被其他信号源（比如噪声）或者传出失真破坏的。

一个基本问题是用信号模型对真实信号进行建模。信号模型的重要性体现在多个方面。首先，信号模型可以提供信号处理系统的理论描述，以生成需要的输出。比如，如果我们想要加强被噪声和传输失真破坏的语音信号，我们可以用信号模型设计一个系统，这个系统可以最好地移除噪声和去除传输失真。其次，信号模型可以让我们在没有可用信号源的情况下学到关于信号源（即生成信号的真实过程）的很多东西。这个特点在从真实信号源中获取信号的代价比较大的时候尤其重要。在这种情况下，有一个好的信号模型，我们就可以仿真信号源并且通过仿真学到尽可能多的东西。最后，最重要的一点是信号模型在实际中效果非常好，可以让我们有效地实现重要的实际系统，比如预测系统、识别系统、认证系统等。

有多种信号模型可以对给定信号进行建模。大体上可以把信号模型分成确定模型和统计模型两大类。确定模型利用关于信号的某些已知特性，比如信号是正弦波。这种情况下，信号模型可以直接确定，只需要估计信号模型的参数值，比如正弦波的幅度、频率和相位。第二类信号模型是统计模型，只对信号的统计特性进行建模。这类模型包括高斯过程、泊松过程、马尔科夫过程以及隐马尔科夫过程。统计模型的基本假设是信号可以用参数化的随机过程很好地表征，并且随机过程的参数可以进行求解。

在语音处理中，确定和统计信号模型都表现良好。在本文中，我们只关心随机信号模型中的一个：HMM。我们首先回顾一下Markov链的理论，然后通过多个简单的例子引入HMM。接着，我们会重点介绍HMM的三个基本问题：给定HMM，估计观测序列的概率；确定最好的状态序列；调整模型参数以最好地解释观测信号。一旦这三个问题被解决，我们就可以用HMM解决语音识别中的实际问题了。

HMM的理论和语音识别中的应用都不是新的东西。基本理论在60年代末期70年代早期由Baum和他的同事发表在一系列经典论文中，并在70年代由CMU的Baker，IBM的Jelinek和他的同事用于语音处理。但是，HMM理论的广泛理解以及语音处理中的广泛应用是这几年的事。出现这种情况有多方面的原因。首先，HMM的基本理论发表在数学杂志上，而语音处理相关的工程师一般不会读数学杂志。其次，这个理论首次应用到语音处理上时，没有提供充分地说明材料，大多数读者无法理解这个理论，也不能把它应用到自己的研究中去。本文旨在提供HMM基本理论（由Baum和他的同事提出）的概馆和HMM实现方法中的一些细节，并说明了HMM在语音识别中不同问题上的应用。

本文组织结构如下。第2节回顾离散Markov链的理论并介绍隐状态的概念。我们通过两个简单的例子来说明理论，这两个例子分别是抛硬币、碗里面的球。我们在第3节讨论HMM的三个基本问题，并给出解决这些问题的方法。在第4节我们会讨论多种HMM类型，包括遍历和左右模型。在这一节，我们也会讨论不同的模型特征，包括观察密度函数、状态时间密度以及用于选择最优HMM参数的优化准则。第5节中我们会讨论在实现HMM时出现的问题，包括缩放、初始参数估计、模型大小、模型形式、数据丢失以及多观测序列。第6节中我们会描述孤立的单词语音识别器，并且比较HMM实现版本和其他版本之间的效果。第7节中，我们扩展第6节的想法，通过串联HMM识别单词。第8节中，我们简单介绍下HMM是如何应用到大型词典语音识别中的。在第9节中，我们对本文进行总结。

阅读全文

0 0