概率图模型

来源：互联网发布：长春软件开发培训编辑：程序博客网时间：2024/04/28 10:39

机器学习最重要的任务是根据一些已观察到的证据(如：训练样本)来对感兴趣的位置变量(如类别标记)进行评估和预测。概率模型(probabilistic model)提供一种描述框架:将学习任务归结为计算变量的概率分布。在概率图模型中，利用已知变量推测未知变量的概率分布为”推断”(inference)，其核心是如何基于可观测变量来推断未知变量的分布。具体:假定所关心的变量集合微Y，可观测变量为O,其他变量为R，生成模型考虑联合分布P(Y,R,O)，”判别式”模型是考虑联合分布P(Y,R|O).给定一组观测变量值，推断就是由P(Y,R,O)或P(Y,R|O)得到条件概率分布P(Y|O).
基于训练样本直接利用概率求和规则消去变量是不可行的，原因:即便每个变量仅有两种取值，其复杂度至少是2|Y|+|R|,另一方面属性之间存在复杂的联系。
概率图模型是以图为工具来表达变量相关关系的概率模型。最常见的是用一个结点表示一个或一组随机变量，结点之间的边表示变量间的概率关系。概率图模型大致分为两类:使用有向无环图表示变量的依赖关系，称为有向图模型或贝叶斯网，变量间存在显示的因果关系时经常使用。另一种是使用无向图表示变量间的相关关系，称为无向图模型或马尔可夫链，变量间存在相关关系却难以获得因果关系经常使用.

隐马尔可夫模型

隐马尔可夫模型(Hidden Markov Model 或HMM)是结构简单的动态贝叶斯网，这时一种著名的有向图模型，主要应用于时序数据建模，再语音识别、自然语言处理等领域有广泛应用。
隐马尔可夫模型的变量分为两组，第一组是状态变量{y1,y2,…,yn}，其中yi∈Y表示第i时刻的状态。通常假设状态变量是隐藏的，不可观测的，即隐变量。第二组变量{x1,…,xn,其中xi∈X表示第i时刻的观测值。在隐马尔可夫模型中，系统通常在多个状态{s1,…,sN之间转换，Y通常是有N个可能取值的李离散空间。观测变量可能是离散的，可能是连续的。本文仅考虑离散观测变量X={o1,…,oM}
这里写图片描述
马尔可夫链(Markov chain)是系统下一时刻的状态仅有当前状态决定，不依赖以往的任何状态，观测变量只依赖当前的状态，与其他变量无关。基于这种关系，所有变量的联合分布是

P (x 1, y 1, \dots, x n, y n) = P (y 1) P (x 1 | y 1)

除了结构信息，隐马尔可夫模型还需要其他三个参数:

状态转移矩阵，通常记为A=[aij]N×N,其中
$a i j = P (y t + 1 = s j | y t = s i), 1 ⩽ i, j ⩽ N$
表示在任意时刻，若状态为si,在下一时刻状态为sj
输出概率矩阵，记为B=[bij]N×M,其中
$b i j = P (y t + 1 = o j | y t = s i), 1 ⩽ i ⩽ N, 1 ⩽ j ⩽ M$
表示在任意时刻t，若状态为si，观测值为oj的概率。
初始状态概率，通常记为π=(π1,π2,…,πN),其中
$π i = P (y 1 = s i)$
其中模型的初始状态为si的概率
通常指定状态空间Y，观测空间X和参数λ=[A,B,π]就能确定一个马尔可夫模型，按如下过程产生观测序列:
(1). 设置t=1，并根据初始状态概率π选择初始状态y1.
(2).根据状态yt和输出观测概率B选择观测变量取值xt.
(3).根据状态yt和状态转移概率A转移模型状态，即确定状态yt+1
(4). 若t<n，设置t=t+1,转到第(2)步，否则停止。
其中Yt∈{s1,s2,…,sN}和xt∈{o1,o2,…,oM}分别为第i时刻的状态和观测值.
在实际应用中，常常关注三个基本问题:
(1). 如何评估模型与观测序列之间的匹配程度？即给定模型λ=[A,B,π],如何有效计算其产生观测序列x={x1,x2,…,xn}的概率。
(2).如何根据观测序列推断出隐藏的模型状态？即给定参数λ=[A,B,π]和观测序列x={x1,x2,…,xn}，如何找出与此观测序列最匹配的状态序列y={y1,y2,…,yn}.
(3).如何训练模型使其能够最好地描述观测数据？即给定观测序列x={x1,x2,…,xn}，如何调整模型参数λ=[A,B,π]使得该序列出现的概率P(x|λ)最大。
上述问题在应用中非常重要，如在许多任务中根据以往的观测序列{x1,x2,…,xn−1}来推断当前时刻最有可能的观测值xn,即是第一个问题。在语音识别任务中，观测值为语音信号，隐藏状态是文字，目标是根据观测信号来推断最有可能的状态序列，即是第二个问题。在大多数应用中，如何根据训练样本学得最有的模型参数，即是第三个问题。

例子

掷骰子。

假设我手里有三个不同的骰子。第一个骰子是我们平常见的骰子（称这个骰子为D6），6个面，每个面（1，2，3，4，5，6）出现的概率是1/6。第二个骰子是个四面体（称这个骰子为D4），每个面（1，2，3，4）出现的概率是1/4。第三个骰子有八个面（称这个骰子为D8），每个面（1，2，3，4，5，6，7，8）出现的概率是1/8。
这里写图片描述
假设我们开始掷骰子，我们先从三个骰子里挑一个，挑到每一个骰子的概率都是1/3。然后我们掷骰子，得到一个数字，1，2，3，4，5，6，7，8中的一个。不停的重复上述过程，我们会得到一串数字，每个数字都是1，2，3，4，5，6，7，8中的一个。例如我们可能得到这么一串数字（掷骰子10次）：1 6 3 5 2 7 3 5 2 4

这串数字叫做可见状态链。但是在隐马尔可夫模型中，我们不仅仅有这么一串可见状态链，还有一串隐含状态链。在这个例子里，这串隐含状态链就是你用的骰子的序列。比如，隐含状态链有可能是：D6 D8 D8 D6 D4 D8 D6 D6 D4 D8
一般来说，HMM中说到的马尔可夫链其实是指隐含状态链，因为隐含状态（骰子）之间存在转换概率（transition probability）。在我们这个例子里，D6的下一个状态是D4，D6，D8的概率都是1/3。D4，D8的下一个状态是D4，D6，D8的转换概率也都一样是1/3。这样设定是为了最开始容易说清楚，但是我们其实是可以随意设定转换概率的。比如，我们可以这样定义，D6后面不能接D4，D6后面是D6的概率是0.9，是D8的概率是0.1。这样就是一个新的HMM。
同样的，尽管可见状态之间没有转换概率，但是隐含状态和可见状态之间有一个概率叫做输出概率（emission probability）。就我们的例子来说，六面骰（D6）产生1的输出概率是1/6。产生2，3，4，5，6的概率也都是1/6。我们同样可以对输出概率进行其他定义。比如，我有一个被赌场动过手脚的六面骰子，掷出来是1的概率更大，是1/2，掷出来是2，3，4，5，6的概率是1/10。
这里写图片描述

其实对于HMM来说，如果提前知道所有隐含状态之间的转换概率和所有隐含状态到所有可见状态之间的输出概率，做模拟是相当容易的。但是应用HMM模型时候呢，往往是缺失了一部分信息的，有时候你知道骰子有几种，每种骰子是什么，但是不知道掷出来的骰子序列；有时候你只是看到了很多次掷骰子的结果，剩下的什么都不知道。如果应用算法去估计这些缺失的信息，就成了一个很重要的问题。这些算法我会在下面详细讲。
HMM模型相关的算法主要分为三类，分别解决三种问题：
1）知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道每次掷出来的都是哪种骰子（隐含状态链）。
这个问题呢，在语音识别领域呢，叫做解码问题。这个问题其实有两种解法，会给出两个不同的答案。每个答案都对，只不过这些答案的意义不一样。第一种解法求最大似然状态路径，说通俗点呢，就是我求一串骰子序列，这串骰子序列产生观测结果的概率最大。第二种解法呢，就不是求一组骰子序列了，而是求每次掷出的骰子分别是某种骰子的概率。比如说我看到结果后，我可以求得第一次掷骰子是D4的概率是0.5，D6的概率是0.3，D8的概率是0.2.
2）还是知道骰子有几种（隐含状态数量），每种骰子是什么（转换概率），根据掷骰子掷出的结果（可见状态链），我想知道掷出这个结果的概率。
看似这个问题意义不大，因为你掷出来的结果很多时候都对应了一个比较大的概率。问这个问题的目的呢，其实是检测观察到的结果和已知的模型是否吻合。如果很多次结果都对应了比较小的概率，那么就说明我们已知的模型很有可能是错的，有人偷偷把我们的骰子給换了。
3）知道骰子有几种（隐含状态数量），不知道每种骰子是什么（转换概率），观测到很多次掷骰子的结果（可见状态链），我想反推出每种骰子是什么（转换概率）。
这个问题很重要，因为这是最常见的情况。很多时候我们只有可见结果，不知道HMM模型里的参数，我们需要从可见结果估计出这些参数，这是建模的一个必要步骤。
1.看见不可见的，破解骰子序列——解最大似然路径问题。
举例来说，我知道我有三个骰子，六面骰，四面骰，八面骰。我也知道我掷了十次的结果（1 6 3 5 2 7 3 5 2 4），我不知道每次用了那种骰子，我想知道最有可能的骰子序列。
其实最简单而暴力的方法就是穷举所有可能的骰子序列，然后把每个序列对应的概率算出来。然后我们从里面把对应最大概率的序列挑出来就行了。如果马尔可夫链不长，当然可行。如果长的话，穷举的数量太大，就很难完成了。
另外一种很有名的算法叫做Viterbi algorithm. 要理解这个算法，我们先看几个简单的列子。
首先，如果我们只掷一次骰子：
看到结果为1.对应的最大概率骰子序列就是D4，因为D4产生1的概率是1/4，高于1/6和1/8.
这里写图片描述
把这个情况拓展，我们掷两次骰子：

结果为1，6.这时问题变得复杂起来，我们要计算三个值，分别是第二个骰子是D6，D4，D8的最大概率。显然，要取到最大概率，第一个骰子必须为D4。这时，第二个骰子取到D6的最大概率是
这里写图片描述
同样的，我们可以计算第二个骰子是D4或D8时的最大概率。我们发现，第二个骰子取到D6的概率最大。而使这个概率最大时，第一个骰子为D4。所以最大概率骰子序列就是D4 D6。
继续拓展，我们掷三次骰子：

同样，我们计算第三个骰子分别是D6，D4，D8的最大概率。我们再次发现，要取到最大概率，第二个骰子必须为D6。这时，第三个骰子取到D4的最大概率是
这里写图片描述
同上，我们可以计算第三个骰子是D6或D8时的最大概率。我们发现，第三个骰子取到D4的概率最大。而使这个概率最大时，第二个骰子为D6，第一个骰子为D4。所以最大概率骰子序列就是D4 D6 D4。
写到这里，大家应该看出点规律了。既然掷骰子一二三次可以算，掷多少次都可以以此类推。我们发现，我们要求最大概率骰子序列时要做这么几件事情。首先，不管序列多长，要从序列长度为1算起，算序列长度为1时取到每个骰子的最大概率。然后，逐渐增加长度，每增加一次长度，重新算一遍在这个长度下最后一个位置取到每个骰子的最大概率。因为上一个长度下的取到每个骰子的最大概率都算过了，重新计算的话其实不难。当我们算到最后一位时，就知道最后一位是哪个骰子的概率最大了。然后，我们要把对应这个最大概率的序列从后往前推出来。
2.谁动了我的骰子？
比如说你怀疑自己的六面骰被赌场动过手脚了，有可能被换成另一种六面骰，这种六面骰掷出来是1的概率更大，是1/2，掷出来是2，3，4，5，6的概率是1/10。你怎么办么？答案很简单，算一算正常的三个骰子掷出一段序列的概率，再算一算不正常的六面骰和另外两个正常骰子掷出这段序列的概率。如果前者比后者小，你就要小心了。
比如说掷骰子的结果是：
这里写图片描述
要算用正常的三个骰子掷出这个结果的概率，其实就是将所有可能情况的概率进行加和计算。同样，简单而暴力的方法就是把穷举所有的骰子序列，还是计算每个骰子序列对应的概率，但是这回，我们不挑最大值了，而是把所有算出来的概率相加，得到的总概率就是我们要求的结果。这个方法依然不能应用于太长的骰子序列（马尔可夫链）。
我们会应用一个和前一个问题类似的解法，只不过前一个问题关心的是概率最大值，这个问题关心的是概率之和。解决这个问题的算法叫做前向算法（forward algorithm）。
首先，如果我们只掷一次骰子：
这里写图片描述
看到结果为1.产生这个结果的总概率可以按照如下计算，总概率为0.18：

把这个情况拓展，我们掷两次骰子：

看到结果为1，6.产生这个结果的总概率可以按照如下计算，总概率为0.05：

继续拓展，我们掷三次骰子：