A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition---第一部分

来源：互联网发布：coel draw 11 for mac 编辑：程序博客网时间：2024/04/20 16:42

说明：原论文《A tutorial on Hidden Markov Models and Selected Applications in Speech Recognition》是一篇隐马尔可夫模型在语音识别中的应用的经典论文，翻译还在修改之中，纰漏较多望大家批判吸收，多提意见。

隐马尔可夫模型指南及其在语音识别中的应用

(翻译初稿)

原作者：LAWRENCE R. RABINER, FELLOW, IEEE

尽管在1960年末1970年初，才引入和研究，马尔可夫信源统计方法或隐马尔可夫模型在近些年来，日益开始流行。之所以出现这种现象有两个主要原因。首先这个模型有丰富的数学结构，因此可以在广泛的应用中构建理论基础。其次，在一些实际的重要应用中，这些模型运行的非常好。在这篇论文中我们尝试仔细的，有条理的回顾统计模型理论的各个方面，以及它们是如何应用在所选择的几个机器语音识别的问题上的。

1、引言
        现实世界的处理过程普遍产生可观测的，表征为信号的输出。在自然界中这些信号可以是分离的（例如，有限字母表中的字符、编码书中有限的矢量，等等），也可以是连续的（例如，语音样本，温度测量，音乐，等等）.这些信号源可以固定的（例如，它的统计学属性不随时间变化），也可以是非固定的（例如，信号的属性伴随时间而改变）.这些信号可以是纯净的（例如，直接来自于信号源），也可能被其他信号源（例如，噪音）或者传送失真、反射等因素污染。
        我们感兴趣的一个基本问题是如何根据信号模型来表征这些现实世界中的信号。我们之所以对应用信号模型感兴趣是因为以下原因。首先，我们通过信号系统对信号的处理产生期望的输出，而信号模型可以为这个信号处理系统的理论描述提供基础。举个例子，假如我们想加强因噪声和传播失真而减弱的语音信号，我们可以使用信号模型设计一个理想的去掉噪音和消除失真的系统。信号模型重要的第二个原因是它有潜力使我们学习大量的信号源（例如，现实世界产生信号的过程）而不必拥有可用的信号源。当获取真实信号源的代价高昂时，这个特性尤为重要。在这种情况下，通过优秀的信号模型，我们可以模拟信号源并从中尽可能多的学习。最后，最重要的原因是在实践中它们总是特别好，使我们能以高效的方式实现重要且实际的系统---例如，预测系统、识别系统、认证系统，等等...
        以下是一些当表征所给信号属性时可选择的信号模型。大体上可以把信号模型分为确定模型和统计模型两类。确定模型普遍利用一些已知的明确的属性，例如，正弦波形信号，或者指数等等...。在这些时候，信号模型的规范是明确的；所要做的就是确定（或估计）信号的模型中各个参数的值（例如，振幅，频率，正弦波形的相位,指数的振幅和速率，等等）。信号模型的第二大类是一系列的统计模型，这些模型用于表征信号的统计属性。例如，这些统计模型包括高斯过程,泊松过程,马尔科夫过程和隐马尔科夫过程。统计模型的基本假设是信号可被恰当的表征为参数化的随机过程，并且该随机过程的参数可以通过精确的，良好定义的方式被确定（估计）。
        在关注的应用中，也就是语音处理，确定的和随机的模型都取得了成功。本文我们只关心随机信号模型，即隐马尔科夫模型（HMM）。（在交流的文献中这些模型被引用为马尔可夫源或马尔可夫链概率函数。）我们首先回顾马尔可夫链理论，然后用过一些简单的例子把这些思想扩展到隐马尔可夫模型。接着，我们将注意力集中在隐马尔可夫模型设计的三个主要问题,即给定隐马尔可夫模型观测序列的概率估计（或似然估计），模型状态最佳序列的测定;如何调整模型参数使其最好的说明观察的信号。一旦这三个主要问题解决了，我们将展示如何将隐马尔可夫模型应用于语音识别领域中的所选问题。

马尔可夫模型或其在语音识别领域的应用都不是新奇的东西。基础理论已在1960年末和1970年初由Baum和他的同事发表在一系列的经典论文中，语音处理应用已在1970由CMU的Baker和IBM的Jelinet及其同事实现。然而在语音处理中广泛的理解和运用隐马尔可夫模型在近几年才出现。出现这种情况基于几种原因。第一，隐马尔可夫模型理论发表在数学杂志上，没有被解决语言处理问题的工程师广泛阅读。第二个原因是该理论在语音处理上的原始应用没有提供足够的辅导材料使广大的读者理解这个理论以及在自己的研究中应用它。因此，一些辅导论文为若干实验室开始将HMMs应用在各自的语音处理应用中提供高水平的讲解。这个辅导旨在提供HMMs（有Baum和他的同事提出）基础理论的概述，详细介绍该理论应用实践的方法。描述了该理论在语音识别领域精选出来的几个典型问题上的应用。本文结合了若干独创的成果，期望为在这个神奇的研究领域追求更高发展所必备该背景知识的人提供一个独立的资源。
这篇文章的组织如下。在接下来的第二部分我们回顾离散马尔可夫链，说明隐式状态的概念---观察是状态的一个可被高效利用的概率函数。我们通过两个简单的例子来讲解，一个是抛硬币，一个是经典的balls-in-urns系统。第三部分我们讨论HMMs的三个主要问题，并给出一些解决这些问题的实用技术。第四部分我们讨论各种已经被研究的 HMMs，包括遍历和左右模型。在这一部分我们还将讨论各种模型的特征，包括观察密度函数的形式，持续密度状态，选择理想HMM参数值的最佳标准。第五部分，我们讨论实现HMMs所产生的问题，包括测量，初始化参数估计，模型大小，模型形式，遗漏数据，多重观察序列。第六部分我们把第五部分提出的思想延伸于识别一串基于连接词汇表中每一个独立的HMMs单词的口语单词。第七部分，我们简要概括如何将HMM应用于一个大词库的语音识别，第八部分我们总结本文中所讨论的思想。