机器学习笔记（十四）——HMM估计问题和前向后向算法

来源：互联网发布：java数组定义和初始化编辑：程序博客网时间：2024/05/16 11:09

一、隐马尔科夫链的第一个基本问题

估计问题：给定一个观察序列O=O1O2…OT和模型u=(A,B,π),如何快速地计算出给定模型u情况下，观察序列O的概率，即P(O|u)?

其实，求解这个问题就是一个解码问题。对于任意的状态序列Q=q1q2…qT,有

P (O | Q, u) = \prod t = 1 T - 1 P (O t | q t, q t + 1, u) = b q 1 (O 1) b q 2 (O 2) \dots b q T (O T)

并且

P (Q | u) = π q 1 a q 1 q 2 a q 2 q 3 \dots a q T - 1 q T

由于

P (O, Q | u) = P (O | Q, u) P (Q | u)

所以

P (O | u) = \sum Q P (O, Q | u) \sum Q P (O | Q, u) P (Q | u) = \sum Q π q 1 b q 1 (O 1) \prod t = 1 T - 1 a q t q t + 1 b q t + 1 (O t + 1)

上述推导过程很直接，但是实际的计算量是非常庞大的，它要穷尽所有可能的状态序列，如果模型中有

N个状态，时间长度为

T，那么有

NT个可能的状态序列，这导致了并不能有效地执行这个算法。因此，人们提出了前向算法，利用动态规划来解决指数爆炸的问题。

为了实现前向算法，需要定义一个前向变量αt(i).
定义1 前向变量αt(i)是在时间t， HMM输出序列O=O1O2…Ot并且位于状态si的概率：

α t (i) = P (O 1 O 2 \dots O t, q t = s i | u)

前向算法的主要思想是，如果可以快速地计算前向变量αt(i)，那么就可以根据αt(i)计算出P(O|u), 因为P(O|u)是在所有状态下观察到序列O=O1O2…Ot的概率：

P (O | u) = \sum s i P (O 1 O 2 \dots O T, q T = s i | u) = \sum i = 1 N α T (i)

在前向算法中，采用动态规划的方法计算前向变量

αt(i)，其思想基于如下观察：在时间t+1的前向变量可以根据时间t时的前向变量

αt(1)，αt(2)，…,αt(N)来归纳计算：

α t + 1 (j) = (\sum i = 1 N α t (i) a i j) b j (O t + 1)

前向算法

1 初始化： α1(i)=πibi(O1),1≤i≤N
2 归纳计算： αt+1(j)=(∑Ni=1αt(i)aij)bj(Ot+1),1≤t≤T−1
3 求和终结： P(O|u)=∑Ni=1αT(i)

前向算法的时间复杂度为O(N2T)

快速计算P(O|u)还有一种后向算法。
对应于前向变量，定义一个后向变量βt(i).
定义2 后向变量βt(i)是在给定模型u=(A,B,π)并且在时间t状态为si的条件下，HMM的输出观察序列O=Ot+1Ot+2…OT的概率：

β t (i) = P (O t + 1 O t + 2 \dots O T | q t = s i | u)

类似于前向算法，也可以用动态规划算法计算后向变量。
1. 从时间

t到时间

t+1, HMM的状态

si到状态

sj输出

Ot+1,概率为

aijbj(Ot+1)
2. 在时间

t+1的状态为

sj的条件下，HMM输出观察序列

Ot+2…OT,概率为：

βt+1(j)
则，归纳关系为：

β t (i) = \sum j = 1 N a i j b j (O t + 1) β t + 1 (j)

后向算法

1 初始化：βT(i)=1,1≤i≤N
2 归纳计算：βt(i)=∑Nj=1aijbj(Ot+1)βt+1(j),T−1≥t≥1;1≤i≤N
3 求和终结：P(O|u)=∑Ni=1πibi(O1)β1(i)

后向算法的时间复杂度为O(N2T)

0 0