隐马尔可夫模型总结

来源：互联网发布：复数矩阵的qr分解例题编辑：程序博客网时间：2024/06/05 21:49

一. HMM的基本概念

1. 隐马尔可夫模型的定义

隐马尔可夫模型是关于时序的概率模型，描述由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列，再由各个

状态生成一个观测而产生观测随机序列的过程。隐藏的马尔可夫链随机生成的状态的序列，成为状态序列；每个状态

生成一个观测，而由此产生的观测的随机序列，称为观测序列。序列的每一个位置又可以看作是一个时刻。

隐马尔可夫模型由初始状态概率向量 $\pi$ 、状态转移概率矩阵 $A$ 和观测概率矩阵 $B$ 决定。 $\pi$ 和 $A$ 决定状态序列， $B$ 决定观测

序列。因此，隐马尔可夫模型 $\lambda$ 可以用三元符号表示，如下所示：

$\lambda {\rm{ = }}\left( {A{\rm{,}}B{\rm{,}}\pi } \right)$

其中， $A$ ， $B$ ， $\pi$ 称为隐马尔可夫模型的三要素。 $N$ 是可能的状态数， $M$ 是可能的观测数。

（1）状态转移概率矩阵 $A$

$A = {\left[ {{a_{ij}}} \right]_{N \times N}}$

其中， ${a_{ij}} = P\left( {{i_{t + 1}} = {q_j}|{i_t} = {q_i}} \right),i = 1,2,...,N;j = 1,2,...,N$ 是在时刻 $t$ 处于状态 ${q_i}$ 的条件下在时刻 $t+1$ 转移到状态 ${q_j}$ 的

概率。

（2）观测概率矩阵 $B$

$B = {\left[ {{b_j}\left( k \right)} \right]_{N \times M}}$

其中， ${b_j}\left( k \right) = P\left( {{o_t} = {v_k}|{i_t} = {q_j}} \right),k = 1,2,...,M;j = 1,2,...,N$ 是在时刻 $t$ 处于状态 ${{q_j}}$ 的条件下生成观测 ${{v_k}}$ 的概率。

（3）初始状态概率向量 $\pi$

$\pi = \left( {{\pi _i}} \right)$

其中， ${\pi _i} = P\left( {{i_1} = {q_i}} \right),i = 1,2,...,N$ 是时刻 $t = 1$ 处于状态 ${q_i}$ 的概率。

2. 观测序列的生成过程

根据隐马尔可夫模型的定义，一个长度为 $T$ 的观测序列 $O = \left( {{o_1},{o_2},...,{o_T}} \right)$ 的生成过程，如下所示：

输入：隐马尔可夫模型 $\lambda {\rm{ = }}\left( {A{\rm{,}}B{\rm{,}}\pi } \right)$ ，观测序列长度 $T$ ；

输出：观测序列 $O = \left( {{o_1},{o_2},...,{o_T}} \right)$ 。

（1）按照初始状态分布 $\pi$ 产生状态 ${i_1}$

（2）令 $t = 1$

（3）按照状态 ${i_t}$ 的观测概率分布 ${b_{{i_t}}}\left( k \right)$ 生成 ${o_t}$

（4）按照状态 ${i_t}$ 的状态转移概率分布 $\left\{ {{a_{{i_t}}}{,_{{i_{t + 1}}}}} \right\}$ 产生状态 ${i_{t + 1}}$ ， ${i_{t + 1}} = 1,2,...,N$

（5）令 $t = t + 1$ ；如果 $t < T$ ，转步（3）；否则，终止

3. 隐马尔可夫模型的3个基本问题

（1）概率计算问题

给定模型 $\lambda {\rm{ = }}\left( {A{\rm{,}}B{\rm{,}}\pi } \right)$ 和观测序列 $O = \left( {{o_1},{o_2},...,{o_T}} \right)$ ，计算在模型 $\lambda$ 下观测序列 $O$ 出现的概率 $P\left( {O|\lambda } \right)$ 。

（2）学习问题

已知观测序列 $O = \left( {{o_1},{o_2},...,{o_T}} \right)$ ，估计模型 $\lambda {\rm{ = }}\left( {A{\rm{,}}B{\rm{,}}\pi } \right)$ 参数，使得在该模型下观测序列概率 $P\left( {O|\lambda } \right)$ 最大，即用极大似然

估计的方法估计参数。

（3）预测问题

已知模型 $\lambda {\rm{ = }}\left( {A{\rm{,}}B{\rm{,}}\pi } \right)$ 和观测序列 $O = \left( {{o_1},{o_2},...,{o_T}} \right)$ ，求对给定观测序列条件概率 $P\left( {I|O} \right)$ 最大的状态序列 $I = \left( {{i_1},{i_2},...,{i_T}} \right)$

，即给定观测序列，求最有可能的对应的状态序列。

二. 概率计算算法

1. 直接计算法

通过列举所有可能的长度为 $T$ 的状态序列 $I = \left( {{i_1},{i_2},...,{i_T}} \right)$ ，求各个状态序列 $I$ 与观测序列 $O = \left( {{o_1},{o_2},...,{o_T}} \right)$ 的联合概率

$P\left ( O,I|\lambda \right )$ ，然后对所有可能的状态序列求和，得到 $P\left ( O|\lambda \right )$ 。这种方法时间复杂度是 ${\rm{O}}\left( {T{N^T}} \right)$ 阶的，因此概念上可行但

计算上不可行。

2. 前向算法

给定隐马尔可夫模型 $\lambda$ ，定义到时刻 $t$ 部分观测序列为 ${o_1},{o_2},...,{o_t}$ 且状态为 ${q_i}$ 的概率为前向概率，记作

${\alpha _t}\left( i \right) = P\left( {{o_1},{o_2},...,{o_t},{i_t} = {q_i}|\lambda } \right)$ ，可以递推地求得前向概率 ${\alpha _t}\left( i \right)$ 及观测序列概率 $P\left ( O|\lambda \right )$ 。

观测序列概率的前向算法，如下所示：

输入：隐马尔可夫模型 $\lambda$ ，观测序列 $O$ ；

输出：观测序列概率 $P\left ( O|\lambda \right )$ 。

（1）初值： ${\alpha _1}\left( i \right) = {\pi _i}{b_i}\left( {{o_1}} \right),i = 1,2,...,N$

初始化前向概率是初始时刻的状态 ${i_t} = {q_i}$ 和观测 ${o_1}$ 的联合概率。

（2）递推：对 $t = 1,2,...,T - 1$ ，如下所示：

${\alpha _{t + 1}}\left( i \right) = \left[ {\sum\limits_{j = 1}^N {{\alpha _t}\left( j \right){\alpha _{ji}}} } \right]{b_i}\left( {{o_{t + 1}}} \right),i = 1,2,...,N$

计算到时刻 $t+1$ 部分观测序列为 ${o_1},{o_2},...,{o_t},{o_{t + 1}}$ 且在时刻 $t+1$ 处于状态 ${q_i}$ 的前向概率。

（3）终止

$P\left( {O|\lambda } \right) = \sum\limits_{i = 1}^N {{\alpha _T}\left( i \right)}$

其中， ${\alpha _T}\left( i \right) = P\left( {{o_1},{o_2},...,{o_T},{i_T} = {q_i}|\lambda } \right)$ 。

3. 后向算法

给定隐马尔可夫模型 $\lambda$ ，定义在时刻 $t$ 状态为 ${q_i}$ 的条件下，从 $t+1$ 到 $T$ 的部分观测序列为 ${o_{t{\rm{ + }}1}},{o_{t + 2}},...,{o_T}$ 的概率为后向概

率，记作 ${\beta _t}\left( i \right) = P\left( {{o_{t + 1}},{o_{t + 2}},...,{o_T}|{i_t} = {q_i}|\lambda } \right)$ ，可以用递推的方法求得后向概率 ${\beta _t}\left( i \right)$ 及观测序列概率 $P\left ( O|\lambda \right )$ 。

观测序列概率的后向算法，如下所示：

输入：隐马尔可夫模型 $\lambda$ ，观测序列 $O$ ；

输出：观测序列概率 $P\left ( O|\lambda \right )$ 。

（1）初值： ${\beta _T}\left( i \right) = 1,i = 1,2...,N$

初始化后向概率，对最终时刻的所有状态 ${q_i}$ 规定 ${\beta _T}\left( i \right) = 1$ 。

（2）递推：对 $t = T - 1,T - 2,...,1$ ，如下所示：

${\beta _t}\left( i \right) = \sum\limits_{j = 1}^N {{a_{ij}}{b_j}\left( {{o_{t + 1}}} \right){\beta _{t + 1}}\left( j \right),j = 1,2,...,N}$

（3）终止

$P\left( {O|\lambda } \right) = \sum\limits_{i = 1}^N {{\pi _i}{b_i}\left( {{o_1}} \right){\beta _1}\left( i \right)}$

4. 一些概率与期望值的计算

（1）给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 ${q_i}$ 的概率，记 ${\gamma _t}\left( i \right) = P\left( {{i_t} = {q_i}|O,\lambda } \right)$ 。如下所示：

${\gamma _t}\left( i \right) = \frac{{{\alpha _t}\left( i \right){\beta _t}\left( i \right)}}{{P\left( {O|\lambda } \right)}} = \frac{{{\alpha _t}\left( i \right){\beta _t}\left( i \right)}}{{\sum\limits_{j = 1}^N {{\alpha _t}\left( j \right){\beta _t}\left( j \right)} }}$

（2）给定模型 $\lambda$ 和观测 $O$ ，在时刻 $t$ 处于状态 ${q_i}$ 且在时刻 $t+1$ 处于状态 $q_j$ 概率，记 ${\xi _t}\left( {i,j} \right) = P\left( {{i_t} = {q_i},{i_{t + 1}} = {q_j}|O,\lambda } \right)$ 。

如下所示：

${\xi _t}\left( {i,j} \right) = \frac{{{\alpha _t}\left( i \right){a_{ij}}{b_j}\left( {{o_{t + 1}}} \right){\beta _{t + 1}}\left( j \right)}}{{\sum\limits_{i = 1}^N {\sum\limits_{j = 1}^N {{\alpha _t}\left( i \right){a_{ij}}{b_j}\left( {{o_{t + 1}}} \right){\beta _{t + 1}}\left( j \right)} } }}$

（3）将 ${\gamma _t}\left( i \right)$ 和 ${\xi _t}\left( {i,j} \right)$ 对各个时刻 $t$ 求和，可以得到一些有用的期望值，如下所示：

在观测 $O$ 下状态 $i$ 出现的期望值 $\sum\limits_{t = 1}^T {{\gamma _t}\left( i \right)}$ ；
在观测 $O$ 下由状态 $i$ 转移的期望值 $\sum\limits_{t = 1}^{T - 1} {{\gamma _t}\left( i \right)}$ ；
在观测 $O$ 下由状态 $i$ 转移到状态 $j$ 的期望值 $\sum\limits_{t = 1}^{T - 1} {{\xi _t}\left( {i,j} \right)}$ 。

三. 学习算法

1. 监督学习算法

假设已给训练数据包含 $S$ 个长度相同的观测序列和对应的状态序列 $\left\{ {\left( {{O_1},{I_1}} \right),\left( {{O_2},{I_2}} \right),...,\left( {{O_S},{I_S}} \right)} \right\}$ ，那么可以利用极大

似然估计法来估计隐马尔可夫模型的参数。如下所示：

（1）转移概率 $a_{i,j}$ 的估计

设样本中时刻 $t$ 处于状态 $i$ 时刻 $t+1$ 转移到状态 $j$ 的频数为 ${A_{ij}}$ ，那么状态转移概率 $a_{i,j}$ 的估计，如下所示：

${\hat a_{ij}} = \frac{{{A_{ij}}}}{{\sum\limits_{j = 1}^N {{A_{ij}}} }},i = 1,2,...,N;j = 1,2,...,N$

（2）观测概率 ${b_j}\left( k \right)$ 的估计

设样本中状态为 $j$ ，并观测为 $k$ 的频数是 ${B_{jk}}$ ，那么状态为 $j$ 观测为 $k$ 的概率 ${b_j}\left( k \right)$ 的估计，如下所示：

${\hat b_j}\left( k \right) = \frac{{{B_{jk}}}}{{\sum\limits_{k = 1}^M {{B_{jk}}} }},j = 1,2,...,N;k = 1,2,...,M$

（3）初始状态概率 ${\pi _i}$ 的估计 ${\hat \pi _i}$ 为 $S$ 个样本中初始状态为 ${q_i}$ 的频率。

2. Baum-Welch算法

假设给定训练数据只包含 $S$ 个长度为 $T$ 的观测序列 $\left\{ {{O_{\rm{1}}},{O_2},...,{O_S}} \right\}$ 而没有对应的状态序列，目标是学习隐马尔可夫模型

$\lambda {\rm{ = }}\left( {A{\rm{,}}B{\rm{,}}\pi } \right)$ 的参数。将观测序列数据看作观测数据 $O$ ，状态序列数据看作不可观测的隐数据 $I$ ，那么隐马尔可夫模型事

实上是一个含有隐变量的概率模型 $P\left( {O|\lambda } \right) = \sum\limits_I {P\left( {O|I,\lambda } \right)} P\left( {I|\lambda } \right)$ ，它的参数可以由EM算法实现。

（1）确定完全数据的对数似然函数

所有观测数据写成 $O = \left( {{o_1},{o_2},...,{o_T}} \right)$ ，所有隐数据写成 $I = \left( {{i_1},{i_2},...,{i_T}} \right)$ ，完全数据是 $\left( {O,I} \right) = \left( {{o_1},{o_2},...,{o_T},{i_1},{i_2},...,{i_T}} \right)$ ，

完全数据的对数似然函数是 $\log P\left( {O,I|\lambda } \right)$ 。

（2）EM算法的E步

求 $Q$ 函数 $Q\left( {\lambda ,\bar \lambda } \right) = \sum\limits_I {\log P\left( {O,I|\lambda } \right)} P\left( {O,I|\bar \lambda } \right)$ 。其中， $\bar{\lambda}$ 是隐马尔可夫模型参数的当前估计值， $\lambda$ 是要极大化的隐马尔可

夫模型参数。 $P\left( {O,I|\lambda } \right) = {\pi _{{i_1}}}{b_{{i_1}}}\left( {{o_1}} \right){a_{{i_1}{i_2}}}{b_{{i_2}}}\left( {{o_2}} \right) \cdots {a_{{i_{T{\rm{ - }}1}}{i_T}}}{b_{{i_T}}}\left( {{o_T}} \right)$ ，于是函数 $Q\left( {\lambda ,\bar \lambda } \right)$ 可以写成，如下所示：

$Q\left( {\lambda ,\bar \lambda } \right) = \sum\limits_I {\log {\pi _{{i_1}}}P\left( {O,I|\bar \lambda } \right)} + \sum\limits_I {\left( {\sum\limits_{t = 1}^{T - 1} {\log {a_{{i_t}{i_{t{\rm{ + }}1}}}}} } \right)P\left( {O,I|\bar \lambda } \right)} + \sum\limits_I {\left( {\sum\limits_{t = 1}^T {\log {b_{{i_t}}}} \left( {{o_t}} \right)} \right)P\left( {O,I|\bar \lambda } \right)}$

式中求和都是对所有训练数据的序列总长度 $T$ 进行的。

（3）EM算法的M步

极大化 $Q$ 函数 $Q\left( {\lambda ,\bar \lambda } \right)$ 求模型参数 $A,B,\pi$ 。如下所示：

${\pi _i} = \frac{{P\left( {O,{i_1} = i|\bar \lambda } \right)}}{{P\left( {O|\bar \lambda } \right)}}$
${a_{ij}} = \frac{{\sum\limits_{t = 1}^{T - 1} {P\left( {O,{i_t} = i,{i_{t + 1}} = j|\bar \lambda } \right)} }}{{\sum\limits_{t = 1}^{T - 1} {P\left( {O,{i_t} = i|\bar \lambda } \right)} }}$
${b_j}\left( k \right) = \frac{{\sum\limits_{t = 1}^T {P\left( {O,{i_t} = j|\bar \lambda } \right)} I\left( {{o_t} = {v_k}} \right)}}{{\sum\limits_{t = 1}^T {P\left( {O,{i_t} = j|\bar \lambda } \right)} }}$

3. Baum-Welch模型参数估计公式

Baum-Welch算法就是EM算法在隐马尔可夫模型学习中的具体实现，如下所示：

输入：观测数据 $O = \left( {{o_1},{o_2},...,{o_T}} \right)$ ；

输出：隐马尔可夫模型参数。

（1）初始化

对 $n = 0$ ，选取 ${a_{ij}}^{\left( 0 \right)},{b_j}{\left( k \right)^{\left( 0 \right)}},{\pi _i}^{\left( 0 \right)}$ ，得到模型 ${\lambda ^{\left( 0 \right)}} = \left( {{A^{\left( 0 \right)}},{B^{\left( 0 \right)}},{\pi ^{\left( 0 \right)}}} \right)$ 。

（2）递推。对 $n = 1,2,...,$ 如下所示：

${a_{ij}}^{\left( {n + 1} \right)} = \frac{{\sum\limits_{t = 1}^{T - 1} {{\xi _t}\left( {i,j} \right)} }}{{\sum\limits_{t = 1}^{T - 1} {{\gamma _t}\left( i \right)} }}$

${b_j}{\left( k \right)^{\left( {n + 1} \right)}} = \frac{{\sum\limits_{t = 1,{o_t} = {v_k}}^T {{\gamma _t}\left( j \right)} }}{{\sum\limits_{t = 1}^T {{\gamma _t}\left( j \right)} }}$

${\pi _i}^{\left( {n + 1} \right)} = {\gamma _1}\left( i \right)$

右端各值按观测 $O = \left( {{o_1},{o_2},...,{o_T}} \right)$ 和模型 ${\lambda ^{\left( n \right)}} = \left( {{A^{\left( n \right)}},{B^{\left( n \right)}},{\pi ^{\left( n \right)}}} \right)$ 计算。

（3）终止

得到模型参数 ${\lambda ^{\left( {n + 1} \right)}} = \left( {{A^{\left( {n + 1} \right)}},{B^{\left( {n + 1} \right)}},{\pi ^{\left( {n + 1} \right)}}} \right)$ 。

四. 预测算法

1. 近似算法

近似算法的思想是，在每个时刻 $t$ 选择在该时刻最优可能出现的状态 ${i_t}^ *$ ，从而得到一个状态序列 ${I^ * } = \left( {{i_1}^*,{i_2}^ * ,...,{i_{\rm{T}}}^ * } \right)$ ，

将它作为预测的结果。

给定隐马尔可夫模型 $\lambda$ 和观测序列 $O$ ，在时刻 $t$ 处于状态 ${q_i}$ 的概率 ${\gamma _t}\left( i \right)$ ，如下所示：

在每一时刻 $t$ 最有可能的状态 ${i_t}^ *$ 是 ${i_t}^ * = \arg \mathop {\max }\limits_{1 \le i \le N} [{\gamma _t}\left( i \right)],t = 1,2,...,T$ ，从而得到状态序列 ${I^*} = \left( {{i_1}^*,{i_2}^*,...,{i_T}^*} \right)$ 。

近似算法的优点是计算简单，其缺点是不能保证预测的状态序列整体是最有可能的状态序列，因为预测的状态序列可

能有实际不发生的部分。事实上，近似算法得到的状态序列中有可能存在转移概率为0的相邻状态，即对某些 $i,j$ ，当

$a_{i,j}=0$ 时。

2. 维特比算法

维特比算法实际是用动态规划解隐马尔可夫模型预测问题，即用动态规划求概率最大路径，这时一条路径对应着一个

状态序列。

定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $\left( {{i_1},{i_2},...,{i_t}} \right)$ 中概率最大值为

${\delta _t}\left( i \right) = \mathop {\max }\limits_{{i_1},{i_2},...,{i_{t - 1}}} P\left( {{i_t} = i,{i_{t - 1}},...,{i_1},{o_t},...,{o_1}|\lambda } \right),i = 1,2,...,N$

由定义可得变量 $\delta$ 的递推公式，如下所示：

$\begin{array}{l} {\delta _{t + 1}}\left( i \right) = \mathop {\max }\limits_{{i_1},{i_2},...,{i_t}} P\left( {{i_{t + 1}} = i,{i_t},...,{i_1},{o_{t + 1}},...,{o_1}|\lambda } \right) \\ = \mathop {\max }\limits_{1 \le j \le N} \left[ {{\delta _t}\left( j \right){a_{ji}}} \right]{b_i}\left( {{o_{t + 1}}} \right),i = 1,2,...,N;t = 1,2,...,T - 1 \\ \end{array}$

定义在时刻 $t$ 状态为 $i$ 的所有单个路径 $\left( {{i_1},{i_2},...,{i_{t - 1}},i} \right)$ 中概率最大的路径的第 $t-1$ 个结点，如下所示：

${\psi _t}\left( i \right) = \arg \mathop {\max }\limits_{1 \le j \le N} [{\delta _{t - 1}}\left( j \right){a_{ji}}],i = 1,2,...,N$

维特比算法，如下所示：

输入：模型 $\lambda {\rm{ = }}\left( {A{\rm{,}}B{\rm{,}}\pi } \right)$ 和观测 $O = \left( {{o_1},{o_2},...,{o_T}} \right)$ ；

输出：最优路径 ${I^*} = \left( {{i_1}^*,{i_2}^*,...,{i_T}^*} \right)$ 。

（1）初始化

$\begin{array}{l} {\delta _1}\left( i \right) = {\pi _i}{b_i}\left( {{o_1}} \right),i = 1,2,...,N \\ {\psi _1}\left( i \right) = 0,i = 1,2,...,N \\ \end{array}$

（2）递推。对 $t = 2,3,...,T$ ，如下所示：

$\begin{array}{l} {\delta _t}\left( i \right) = \mathop {\max }\limits_{1 \le j \le N} [{\delta _{t - 1}}\left( j \right){a_{ji}}]{b_i}\left( {{o_t}} \right),i = 1,2,...,N \\ {\psi _t}\left( i \right) = \arg \mathop {\max }\limits_{1 \le j \le N} [{\delta _{t - 1}}\left( j \right){a_{ji}}],i = 1,2,...,N \\ \end{array}$

（3）终止

$\begin{array}{l} P* = \mathop {\max }\limits_{1 \le i \le N} {\delta _T}\left( i \right) \\ {i_T}^* = \arg \mathop {\max }\limits_{1 \le i \le N} [{\delta _T}\left( i \right)] \\ \end{array}$

（4）最优路径回溯

对 $t = T - 1,T - 2,...,1$ ，有 ${i_t}^* = {\psi _{t + 1}}\left( {{i_{t + 1}}^*} \right)$ ，求得最优路径 ${I^ * } = \left( {{i_1}^*,{i_2}^ * ,...,{i_{\rm{T}}}^ * } \right)$ 。

参考文献：

[1] 《统计学习方法》

[2] HMM相关文章索引：http://www.52nlp.cn/category/hidden-markov-model

阅读全文

1 0