机器学习模型LaTeX公式版：隐马尔科夫模型

来源：互联网发布：编程语言有多少编辑：程序博客网时间：2024/05/29 19:20

状态集合

Q = {q 1, q 2, \dots, q N} ∣ ∣ Q ∣ ∣ = N

观测集合

V = {v 1, v 2, \dots, v M} ∣ ∣ V ∣ ∣ = M

状态序列

I = {i 1, i 2, \dots, i t, \dots, i T} i t \in Q (t = 1, 2, \dots, T)

观测序列

O = {o 1, o 2, \dots, o t, \dots, o T} o t \in V (t = 1, 2, \dots, T)

状态转移矩阵

A = [a i j] N \times N

在

t时刻处于状态

qi的条件下，在

t+1时刻转移到状态

qj的概率

a i j = P (i t + 1 = q j | i t = q i) (i = 1, 2, \dots, N) (j = 1, 2, \dots, M)

观测概率矩阵

B = [b j (k)] N \times M

在

t时刻处于状态

qi的条件下，生成观测

vk的概率

b j (k) = P (o t = v k | i t = q j) (k = 1, 2, \dots, M) (j = 1, 2, \dots, N)

初始概率向量

π = (π i)

在时刻

t=1处于状态

qi的概率

π i = P (i 1 = q i) (i = 1, 2, \dots, N)

隐马尔科夫模型

λ = (A, B . π)

隐马尔科夫模型基本假设：
1. 齐次马尔科夫性假设：在任意时刻

t的状态只依赖于时刻

t−1的状态。

P (i t | i t - 1, o t - 1, \dots, i 1, o 1) = P (i t | i t - 1) (t = 1, 2, \dots, T)

2. 观测独立性假设：任意时刻

t的观测只依赖于时刻

t的状态。

P (o t | i T, o T, i T - 1, o T - 1, \dots, i t + 1, o t + 1, i t, i t - 1, o t - 1, \dots, i 1, o 1) = P (o t | i t) (t = 1, 2, \dots, T)

观测序列生成算法:
输入：隐马尔科夫模型

λ=(A,B.π),观测序列长度

T;
输出：观测序列

O={o1,o2,…,ot,…,oT}；
1. 由初始概率向量

π产生状态

i1；
2.

t=1；
3. 由状态

it的观测概率分布

bj(k)生成

ot；
4. 由状态

it的状态转移概率分布

aitit+1生成状态

it+1(it+1=1,2,…,N)；
5.

t=t+1；如果

t<T，转至3.；否则，结束。

隐马尔科夫模型的3个基本问题：
1. 概率计算：已知λ=(A,B,π)和O={o1,o2,…,ot,…,oT}，计算P(O|λ)
2. 学习：已知O={o1,o2,…,ot,…,oT}，计算 λ∗=argmaxP(O|λ)
3. 预测（编码）：已知λ=(A,B.π)和O={o1,o2,…,ot,…,oT}，计算 I∗=argmaxP(I|O,λ)

前向概率

α t (i) = P (o 1, o 2, \dots, o t, i t = q i | λ)

给定模型

λ，时刻

t部分观测序列为

o1,o2,…,ot且状态为

qi的概率。
前向概率递推计算

α t (i) = P (o 1, o 2, \dots, o t, i t = q i | λ) ＝ P (i t = q i, o t 1) = \sum j = 1 N P (i t - 1 = q j, i t = q i, o t - 1 1, o t) = \sum j = 1 N P (i t = q i, o t | i t - 1 = q j, o t - 1 1) \cdot P (i t - 1 = q j, o t - 1 1) = \sum j = 1 N P (i t = q i, o t | i t - 1 = q j) \cdot α t - 1 (j) = \sum j = 1 N P (o t | i t = q i, i t - 1 = q j) \cdot P (i t = q i | i t - 1 = q j) \cdot α t - 1 (j) = \sum j = 1 N b i (o t) \cdot a j i \cdot α t - 1 (j)

概率计算

P (O | λ) = P (o T 1 | λ) = \sum i = 1 N P (o T 1, i T = q i) = \sum i = 1 N α T (i)

观测序列概率计算的前向算法：
输入：隐马尔科夫模型

λ,观测序列

O;
输出：观测序列概率

P(O|λ)；
1. 初值

α 1 (i) = π i b i (o 1) (t = 1, 2, \dots, N)

2. 递推对

t=1,2,…,T−1

α t + 1 (i) = \sum j = 1 N b i (o t + 1) \cdot a j i \cdot α t (j) (t = 1, 2, \dots, N)

3. 终止

P (O | λ) = \sum j = 1 N α T (i)

后向概率

β t (i) = P (o t + 1, o t + 2, \dots, o T | i t = q i λ)

给定模型

λ，时刻

t状态为

qi的条件下，从时刻

t+1到时刻

T的部分观测序列为

ot+1,ot+2,…,oT的概率。
后向概率递推计算

β t (i) = P (o t + 1, o t + 2, \dots, o T | i t = q i, λ) ＝ P (o T t + 1 | i t = q i) = P ( o T t + 1 , i t = q i ) P ( i t = q i ) = \sum N j = 1 P ( o T t + 1 , i t = q i , i t + 1 = q j ) P ( i t = q i ) = \sum j = 1 N P ( o T t + 1 | i t = q i , i t + 1 = q j ) \cdot P ( i t = q i , i t + 1 = q j ) P ( i t = q i ) = \sum j = 1 N P (o T t + 1 | i t + 1 = q j) \cdot P ( i t + 1 = q j | i t = q i ) \cdot P ( i t = q i ) P ( i t = q i ) = \sum j = 1 N P (o N t + 2, o t + 1 | i t + 1 = q j) \cdot a i j = \sum j = 1 N P (o T t + 2 | i t + 1 = q j) \cdot P (o t + 1 | i t + 1 = q j) \cdot a i j = \sum j = 1 N β t + 1 (j) \cdot b j (o t + 1) \cdot a i j

概率计算

P (O | λ) = P (o T 1 | λ) = \sum i = 1 N P (o T 1, i 1 = q i) = \sum i = 1 N P (i 1 = q i) \cdot P (o 1 | i 1 = q i) \cdot P (o T 2 | i 1 = q i) = \sum i = 1 N π i b i (o 1) β 1 (i)

观测序列概率计算的后向算法：
输入：隐马尔科夫模型

λ,观测序列

O;
输出：观测序列概率

P(O|λ)；
1. 初值

β T (i) = 1 (t = 1, 2, \dots, N)

2. 递推对

t=T−1,T−2,…,1

β t (i) = \sum j = 1 N β t + 1 (j) \cdot b j (o t + 1) \cdot a i j (t = 1, 2, \dots, N)

3. 终止

P (O | λ) = \sum j = 1 N π i b i (o 1) β 1 (i)

P(O|λ)的前向概率、后向概率的表示

P (O | λ) ＝ P (o T 1) ＝ \sum i = 1 N \sum j = 1 N P (o t 1, o T t + 1, i t = q i, i t + 1 = q j) ＝ \sum i = 1 N \sum j = 1 N P (o t 1, i t = q i, i t + 1 = q j) P (o T t + 1 | i t + 1 = q j) = \sum i = 1 N \sum j = 1 N P (o t 1, i t = q i) P (i t + 1 = q j | i t = q i) P (o T t + 1 | i t + 1 = q j) = \sum i = 1 N \sum j = 1 N P (o t 1, i t = q i) P (i t + 1 = q j | i t = q i) P (o t + 1 | i t + 1 = q j) P (o T t + 2 | i t + 1 = q j) = \sum i = 1 N \sum j = 1 N α t (i) a i j b j (o t + 1) β t + 1 (j) t = 1, 2, \dots, T - 1

给定模型

λ和观测

O，在时刻

t处于状态

qi的概率

γ t (i) = P (i t = q i | O, λ) = P ( i t = q i , O | λ ) P ( O | λ ) = P ( i t = q i , O | λ ) \sum N j = 1 ( i t = q i , O | λ ) = P ( o t 1 , i t = q i ) P ( o T t + 1 | i t = q i ) \sum N j = 1 P ( o t 1 , i t = q i ) P ( o T t + 1 | i t = q i ) = α t ( i ) β t ( i ) \sum N j = 1 α t ( i ) β t ( i )

给定模型

λ和观测

O，在时刻

t处于状态

qi且在时刻

t+1处于状态

qj的概率

ξ t (i, j) = P (i t = q i, i t + 1 = q j | O, λ) = P ( i t = q i , i t + 1 = q j , O | λ ) P ( O | λ ) = P ( i t = q i , i t + 1 = q j , O | λ ) \sum N i = 1 \sum N j = 1 P ( i t = q i , i t + 1 = q j , O | λ ) = α t ( i ) a i j b j ( o t + 1 ) β t + 1 ( j ) \sum N i = 1 \sum N j = 1 α t ( i ) a i j b j ( o t + 1 ) β t + 1 ( j )

在观测

O下状态

i出现的期望

\sum t = 1 T γ t (i) = \sum t = 1 T P (i t = q i | O, λ)

在观测

O下由状态

i转移的期望

\sum t = 1 T － 1 γ t (i) = \sum t = 1 T － 1 P (i t = q i | O, λ)

在观测

O下由状态

i转移到状态

j的期望

\sum t = 1 T － 1 ξ t (i, j) = \sum t = 1 T － 1 P (i t = q i, i t + 1 = q j | O, λ)

将观测序列作为观测数据

O,将状态序列作为隐数据

I，则应马尔科夫模型是含有隐变量的概率模型

P (O | λ) = \sum I P (O | I, λ) P (I | λ)

完全数据

Q(λ,λ⎯⎯)函数

Q (λ, λ ⎯ ⎯) = E I [log P (O, I | λ) | O, λ ⎯ ⎯] = \sum I log P (O, I | λ) P (I | O, λ ⎯ ⎯) = \sum I log P ( O , I | λ ) P ( O , I | λ ⎯ ⎯ ) P ( O | λ ⎯ ⎯ )

其中，

λ⎯⎯是隐马尔科夫模型参数的当前估计值，

λ是隐马尔科夫模型参数。
由于对最大化

Q(λ,λ⎯⎯)函数，

P(O|λ⎯⎯)为常数因子，
以及

P (O, I | λ) = π i 1 b i 1 (o 1) a i 1 i 2 b i 2 (o 2) \dots a i T - 1 i T b T (o T)

所以求

Q(λ,λ⎯⎯)函数对

λ的最大

λ = arg max Q (λ, λ ⎯ ⎯) \Leftrightarrow arg max \sum I log P (O, I | λ) P (O, I | λ ⎯ ⎯) = \sum I log π i 1 P (O, I | λ ⎯ ⎯) + \sum I (\sum t = 1 T - 1 log a i t i t + 1) P (O, I | λ ⎯ ⎯) + \sum I (\sum t = 1 T log b i t (o t)) P (O, I | λ ⎯ ⎯)

对三项分别进行极大化：
1.

max \sum I log π i 1 P (O, I | λ ⎯ ⎯) = \sum i = 1 N log π i 1 P (O, i 1 = i | λ ⎯ ⎯) s . t . \sum i = 1 N π i = 1

构造拉格朗日函数，对其求偏导，令结果为0

\partial \partial π i [\sum i = 1 N log π i 1 P (O, i 1 = i | λ ⎯ ⎯) + γ (\sum i = 1 N π i - 1)] = 0

得

P (O, i 1 = i | λ ⎯ ⎯) + γ π i = 0 \sum i = 1 N [P (O, i 1 = i | λ ⎯ ⎯) + γ π i] = 0 \sum i = 1 N P (O, i 1 = i | λ ⎯ ⎯) + γ \sum i = 1 N π i = 0 P (O | λ ⎯ ⎯) + γ = 0 γ = - P (O | λ ⎯ ⎯)

代入

P(O,i1=i|λ⎯⎯)+γπi=0，得

π i = P ( O , i 1 = i | λ ⎯ ⎯ ) P ( O | λ ⎯ ⎯ ) = γ 1 (i)

max \sum I (\sum t = 1 T - 1 log a i t i t + 1) P (O, I | λ ⎯ ⎯) = \sum i = 1 N \sum j = 1 N \sum t = 1 T - 1 log a i j P (O, i t = i, i t + 1 = j | λ ⎯ ⎯) s . t . \sum j = 1 N a i j = 1

得

a i j = \sum T - 1 t = 1 P ( O , i t = i , i t + 1 = j | λ ⎯ ⎯ ) \sum T - 1 t = 1 P ( O , i t = i | λ ⎯ ⎯ ) = \sum T - 1 t = 1 ξ t ( i , j ) \sum T - 1 t = 1 γ t ( i )

max \sum I (\sum t = 1 N log b i t (o t)) P (O, I | λ ⎯ ⎯) = \sum j = 1 N \sum t = 1 T log b j (o t) P (O, i t = j | λ ⎯ ⎯) s . t . \sum k = 1 M b j (k) = 1

得

b j (k) = \sum T t = 1 P ( O , i t = j | λ ⎯ ⎯ ) I ( o t = v k ) \sum T t = 1 P ( O , i t = j | λ ⎯ ⎯ ) = \sum T t = 1 , o t = v k γ t ( j ) \sum T t = 1 γ t ( j )

Baum-Welch算法：
输入：观测数据

O=(o1,o2,⋯,oT)
输出：隐马尔科夫模型参数
1. 初始化
对

n=0，选取

a(0)ij,bj(k)(0),π(0)i，得到模型

λ(0)=(a(0)ij,bj(k)(0),π(0)i)
2. 递推
对

n=1,2,⋯,

a (n + 1) i j = \sum T - 1 t = 1 ξ t ( i , j ) \sum T - 1 t = 1 γ t ( i ) b j (k) (n + 1) = \sum T t = 1 , o t = v k γ t ( j ) \sum T t = 1 γ t ( j ) π (n + 1) i = P ( O , i 1 = i | λ ⎯ ⎯ ) P ( O | λ ⎯ ⎯ )

其中，右端各值按观测数据

O=(o1,o2,⋯,oT)和模型

λ(n)=(A(n),B(n),π(n))计算。
3. 终止
得到模型

λ(n＋1)=(A(n+1),B(n+1),π(n+1))
在时刻

t状态为

i的所有单个路径

(i1,i2,⋯,it)中概率最大值

δ t (i) = max i 1, i 2, \dots, i t - 1 P (i t = i, i t - 1, \dots, i 1, o t, \dots, o 1 | λ) i = 1, 2, \dots, N

得递推公式

δ t + 1 (i) = max i 1, i 2, \dots, i t P (i t + 1 = i, i t, \dots, i 1, o t + 1, \dots, o 1 | λ) = max 1 \leq j \leq N [max i 1, i 2, \dots, i t - 1 P (i t + 1 = i, i t = j, i t - 1, \dots, i 1, o t + 1, o t, \dots, o 1 | λ)] = max 1 \leq j \leq N [max i 1, i 2, \dots, i t - 1 P (i t + 1 = i, i t = j, i t - 1, \dots, i 1, o t, o t - 1, \dots, o 1 | λ) P (o t + 1 | i t + 1 = i, λ)] = max 1 \leq j \leq N [max i 1, i 2, \dots, i t - 1 P (i t = j, i t - 1, \dots, i 1, o t, o t - 1, \dots, o 1 | λ) P (i t + 1 = i | i t = j, λ) P (o t + 1 | i t + 1 = i, λ)] = max 1 \leq j \leq N [δ t (j) a j i] b i (o t + 1) i = 1, 2, \dots, N

在时刻

t状态为

i的所有单个路径

(i1,i2,⋯,it)中概率最大值的路径的第

t−1个结点

ψ t (i) = arg max 1 \leq j \leq N [δ t - 1 (j) a j i] i = 1, 2, \dots, N

维特比算法：
输入：模型

λ=(A,B,π)和观测数据

O=(o1,o2,⋯,oT)
输出：最优路径

I∗=(i∗1,i∗2,⋯,i∗T)
1. 初始化

δ 1 (i) = π i b i (o 1) i = 1, 2, \dots, N ψ 1 (i) = 0

2. 递推
对

t=2,3,⋯,T

δ t (i) = max 1 \leq j \leq N [δ t - 1 (j) a j i] b i (o t) i = 1, 2, \dots, N ψ t (i) = arg max 1 \leq j \leq N [δ t - 1 (j) a j i] i = 1, 2, \dots, N

3. 终止

P * = max 1 \leq j \leq N δ T (i) i * T = arg max 1 \leq j \leq N [δ T (i)]

4. 最优路径回溯
对

t=T−1,T−2,⋯,1

i * t = ψ t + 1 (i * t + 1)

求得最优路径

I∗=(i∗1,i∗2,⋯,i∗T)

0 0