HMM超详细讲解+代码

来源：互联网发布：chrome windows 2003 编辑：程序博客网时间：2024/06/05 04:46

写在前面
本文目标
Why - 什么场景下需要HMM模型
What - HMM模型的相关概念定义
- HMM模型的5元组
- HMM中的3个经典问题
How - HMM模型中的3个经典问题
- 评估
  - 评估描述
  - 评估理论推导
  - 评估实际算法前向计算
  - python前向算法代码
- 预测
  - 预测描述
  - 维特比算法
  - python 维特比算法代码
- 学习
  - EM算法实例理解
  - baum-welch算法的思路
  - python代码baum-welch算法
  - Baum-welch算法可行性
词性标注实例
一些问题

写在前面

老习惯，正文之前瞎扯一通。HMM学了很久，最初是在《统计学自然语言处理》里面就学到了相关内容，并且知道HMM CRF一直都是NLP比较底层比较基础且较为有效的算法模型（虽然感觉还是挺难的），之前仅仅局限在了解前向算法和维特比算法上。也没有去写代码，只知道个大概思路。最近从52nlpHMM系列讲解再次入手，结合多篇博客、github项目以及李航的《统计学习方法》比较全面的对HMM做了一次学习，要求对自己强制输出，所以在整体公式推导没有什么大问题之后，昨天花了一天完善了代码，今天来做一个全面的讲解，为人为己。
本文还是坚持自己的风格，讲解和公式穿插进行，数学公式永远是最精炼的语言~^_^~

本文目标

Why - 什么场景下需要HMM模型
What - HMM模型的相关概念定义
How - HMM模型中的3个经典问题
Code - python实现一个HMM基础框架以及简单应用
总结与后续问题

Why - 什么场景下需要HMM模型

X是一个时间和状态都是离散随机过程，Xn是n时刻下的状态，如果Xn + 1对于过去状态的条件概率分布仅是Xn的一个函数，即我们通常说的状态仅与上一个状态有关，则该过程是一个一阶马尔科夫过程。公式如下：P(Xn+1=x∣X0,X1,X2,…，Xn)=P(Xn+1=x∣Xn)

上面回顾了一下马尔科夫模型，现在来看一个实际的例子：
现在有某地一周的天气预报：
1 Sun 2 Sun 3 Rain 4 Sun 5 Rain 6 Rain 7 Sun
现在我们假设知道某地以往所有的天气，现在我们假设这是在沙漠地区，那么我们有一个2阶的状态转移矩阵：

         sun rainsun      0.9  0.1rain     0.8  0.2

那么我们现在可以很轻松的判断这一周出现这种天气的概率是多少。但是突然有一天，你被关进了一个小黑屋，你不能直接知道外面的天气，你只能看看小屋子里面苔藓的干湿情况，并且你知道天气能影响苔藓的干湿情况。那么现在如果你想了解天气情况以及相关的信息，你该怎么办？

这里先来小小总结一下，我们现实生活中有很多这种类似的例子，上述例子中天气是我们不能直接观测的（被关小黑屋的情况）称为隐藏状态，苔藓的干湿被称为观察状态，观察到的状态序列与隐藏过程有一定的概率关系，这时我们使用隐马尔科夫模型对这样的过程建模，这个模型包含了一个底层隐藏的随时间改变的马尔科夫过程，以及一个与隐藏状态某种程度相关的可观察到的状态集合。我们生活中有很多这种无法被直接观测的例子，比如语音设备中的某些内部产出，或者是投骰子中某些骰子的状态选择（4,6,8面骰子的案例，网上很多这里不赘述），或者是词性标注中的词语词性等等。整个HMM模型都是围绕观测状态和隐藏状态建模和处理的。我们先留个印象，让我们继续往后看。

What - HMM模型的相关概念定义

隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。以上描述来自百度百科。
HMM模型大概长像如下，偷的52NLP的图，这个模型包含了一个底层隐藏的随时间改变的马尔科夫过程，通常是一阶的，对应下图就是天气之间的状态转移概率关系。以及一个与隐藏状态某种程度相关的可观察到的状态集合，对应就是天气如何影响苔藓，即我们的术语叫做发射概率或者混淆概率。
这里写图片描述

HMM模型的5元组

每个模型都有自己相关的概念，弄清算法之前我们先来看看这个模型的基本概念，5元组。
（S,K,π,A,B）：以上分别对应了HMM中的5个重要概念
S：隐藏状态的集合（Sun Cloud Rain），N为隐状态个数 N=3
K : 输出状态或者说观测状态的集合（Soggy Damp Dryish Dry），M为观测状态个数M=4
π : 对应隐藏状态的初始化概率（sun : 0.5 cloud : 0.3 rain : 0.2）
A : 隐藏状态的状态转移概率，是一个N*N的概率矩阵
B : 隐藏状态到观测状态的混淆矩阵，是一个N*M的发射概率矩阵
另外符号体系中会有对于每个序列的状态序列和观测序列，如一周的观测和状态，定义下
X : 某特定观测序列
O : 某特定隐藏状态序列
仍然是盗的图，方便大家看一下，和我上面写的基本一致。来自《统计学自然语言处理》
这里写图片描述

HMM中的3个经典问题

关于HMM这个模型建立起来之后，其实有很多问题可以去讨论，但是一般讲学中我们讨论3个问题，即评估，预测，学习，下面我们来一起看一波吧~
这里为了解释方便，请大家无条件的接受以下两个基础条件：
1.已知对应问题的观测状态集合K
2.已知对应问题的隐藏状态集合S
如果没有以上两个问题，可能就不太属于今天要讨论的范畴了，可能属于聚类后者其他研究，总之这里我们不予考虑。
3个经典问题如下：
·观察序列概率的计算评估（前向算法）
·隐藏状态序列最大概率解预测（维特比算法）
·马尔科夫参数求解（π,A,B）学习（EM算法前后向算法）

How - HMM模型中的3个经典问题

评估

评估描述

给定观测序列O（o1,o2,…,oT）和模型u = (π,A,B),求出P（O | u）,即给定模型下观测序列的概率是多少？对应于之前的例子，就是给定天气的转移矩阵，天气和苔藓的发射矩阵，以及天气的初始化列表（这些都是已知的，以前统计好的，具体方法这里不用纠结）。然后求出给定一周苔藓的状态，你判断这个状态存在的概率有多大（这个评估这里只是介绍方法，想想感觉这个案例这里没有什么特别大的实际意义）。

评估理论推导

解决该问题有个很直观的想法就是把所有的隐藏状态都走一遍，然后看对应观测状态概率有多大，一起加起来就是这个状态的可能性。我们用数学式子表示如下：
自己写公式还是很费力的，第二个公式中bxtxt+1ot这种写法是因为有些HMM模型的发射概率是在发射弧上面，即和该状态与下状态有关，所以写成这种样子，有时候如果只与当前状态有关可以写成btot的形式。
第一个公式：利用全概率公式求解所有可能隐状态序列下的概率之和。
第二个公式：已知状态下序列的概率。
第三个公式：任意隐藏序列的概率。
第四个公式：利用每个概率表示公式1，这里bxtot表示了发射只与当前状态有关，与2略不同，只是多了一个假设条件便于表示。另外此处说明下由于序列长度不同，该公式可能与其他某些书中公式有点差异，但基本思想一致，只不过具体表现上针对不同情况略有不同。最后一个bXTOT是在连乘之后的，不在求积符号里面！
这里写图片描述
好了，公式也推到了，写写代码就能跑了（完结撒花~）！
其实并没有进度条君命还长呢，我们仔细看看上面公式，计算一下时间复杂度。一共N^T次方的可能序列，好了打住，不用往后看了，这已经指数级别了。我们可以看到计算公式里面实际是由大量冗余乘法计算的，现在给大家介绍动态规划的前向算法来巧妙的解决实际计算问题。

评估实际算法：前向计算

这里写图片描述
我们定义前向变量算子αt（i）=P(O1,O2,…,Ot,Xt = Si | u),前向变量表示t时刻，si状态结束是之前路径上的总概率。可知，对αT（i）求和便能得到评估结果。而此时时间复杂度因为有了动态规划，乘法次数在T*N^2的级别，进步不少哦，只需要额外的少量空间（T*N）即可。
这里写图片描述

python前向算法代码

OK，这一部分差不多到这里，已经可以评估出这个观测序列存在的概率了，下面附上一点点python代码，以下符号体系和上述相同，应该比较好理解，重点在于熟悉numpy对矩阵的操作，这使得python的代码看起来十分的简洁！

    #计算公式中的alpha二维数组    def _forward(self,observationsSeq):        T = len(observationsSeq)        N = len(self.pi)        alpha = np.zeros((T,N),dtype=float)        alpha[0,:] = self.pi * self.B[:,observationsSeq[0]]  #numpy可以简化循环        for t in range(1,T):            for n in range(0,N):                alpha[t,n] = np.dot(alpha[t-1,:],self.A[:,n]) * self.B[n,observationsSeq[t]] #使用内积简化代码        return alpha

预测

预测描述

给定观测序列O（o1,o2,…,oT）和模型u = (π,A,B),求出最大概率的隐藏序列X（X1,X2…,XT），那么解法思路和上述一样，只不过将求和变成求最大值，并且相同的思路我们可以利用动态规划来解决这个问题，这里该方法有一个较为有名的算法“维特比算法”。下面引用了数学之美的一段话。

维特比算法是一个特殊但应用最广的动态规划算法，利用动态规划，可以解决任何一个图中的最短路径问题。而维特比算法是针对一个特殊的图——篱笆网络的有向图（Lattice )的最短路径问题而提出的。 它之所以重要，是因为凡是使用隐含马尔可夫模型描述的问题都可以用它来解码，包括今天的数字通信、语音识别、机器翻译、拼音转汉字、分词等。——《数学之美》

维特比算法

argmax(P（X|O,u）),我们想求出最有可能的X序列（X1，X2,….,XT），我们依葫芦画瓢写出对应的维特比中间变量θt（j） = max(P(X1,X2,..Xt=Sj,O1,O2,…,Ot|u)) （这个公式确实有点难写出来，不过是想还是很容易理解）。这里我们根据上一时刻的概率，根据转移概率求出此刻最可能的情况，以此递归，最终能找到最优解。下面是具体推导过程，该过程中引入了一个变量来存储该节点的前一个路过节点，代码中用argmax(θ（j-1）)表示。
推导公式如下，解释下：
第一个公式：状态1时刻概率都是初始概率，这里注意有人用1有人用0，完全看是不是写代码方便了
第二个公式：状态t时刻为t-1时刻θ变量*转移概率的最大值
第三个公式：状态t时刻回溯上一个最大概率路径。

θ1(j) = πj θt(j) = max( θt-1(i) * aij * bj ot)   i∈[1,N]φt(j) = argmax( θt-1(i) * aij )   i∈[1,N]

给张示意图吧，有关更多维特比的内容，可以去网上搜索更多资料。
这里写图片描述

python 维特比算法代码

下面仍然给一段python代码：

 #维特比算法进行预测，即解码，返回最大路径与该路径概率    def viterbi(self,observationsSeq):        T = len(observationsSeq)        N = len(self.pi)        prePath = np.zeros((T,N),dtype=int)        dpMatrix = np.zeros((T,N),dtype=float)        dpMatrix[0,:] = self.pi * self.B[:,observationsSeq[0]]        for t in range(1,T):            for n in range(N):                probs = dpMatrix[t-1,:] * self.A[:,n] * self.B[n,observationsSeq[t]]                prePath[t,n] = np.argmax(probs)                dpMatrix[t,n] = np.max(probs)        maxProb = np.max(dpMatrix[T-1,:])        maxIndex = np.argmax(dpMatrix[T-1,:])        path = [maxIndex]        for t in reversed(range(1,T)):            path.append(prePath[t,path[-1]])        path.reverse()        return maxProb,path

学习

说了半天，终于说到以前没有说的问题了，之前的两个问题其实都比较容易理解，学习是HMM经典问题里面比较难的问题，要求是给定一个观察序列，求出模型的参数（π,A,B）。想想就很头疼，这怎么求，有一个办法就是拿已经标记好的去统计，这是一种方法。另外就是我们今天要讲的前后向算法了。这个算法又叫baum-welch算法，是在EM算法提出之前就已经存在了，之后被证明为一种特殊的EM算法。一般的博客会从后向变量开始往后讲，但是我觉得从理解的角度出发，我们还是先来看看这个EM算法。

EM算法实例理解

首先我们想一下学习参数我们需要做些什么，有哪些难点。首先我们不知道隐藏状态序列是什么样子的，再一个我们要求转移矩阵之类。我们想从概率最大入手或者说极大似然，但是只有知道u=(π,A,B)我们才能求出最可能的序列，有了最可能的序列我们才有可能估算最可能的参数集。这仿佛是一个循环的“鸡生蛋，蛋生鸡”的故事。此问题就是EM算法的应用场景，那么我们举个简单的例子，看一下EM算法的思想。
此处会借用http://blog.csdn.net/zouxy09/article/details/8537620/博主的例子，特此说明，为了保证博文的完整性，这里简要说明。更详细说明请看上面链接。

假设现在有N1个男生，N2个女生。并且男女身高集X1,X2均服从高斯分布X1~N（μ1，б1^2），X2~N（μ2，б2^2），其中均值和标准差μi,бi(i∈1，2)均是未知参数。我们现在随机抽取了n个人，假设抽取人身高序列为Oi(i∈1,..,n)。那么我们希望在u=(π,A,B)参数下使得该序列出现可能性最大。用数学公式表示如下：
这里写图片描述
现在就是想办法对求出上式u,最直接的思路就是对（π,A,B）分别求导，在分布已知（隐藏状态确认）的情况下还是比较好求，前提是对似然函数L（u）求lg,这样可以将上面的式子编程∑，方便计算。下面给出极大似然的一般步骤：

求最大似然函数估计值的一般步骤：（1）写出似然函数；（2）对似然函数取对数，并整理；（3）求导数，令导数为0，得到似然方程；（4）解似然方程，得到的参数即为所求；

那么现在的问题就是，我们不知道这个人是男的还是女的，我们就不知道怎么去算这个概率了。那么既然是一个循环，我们随便找一个点切入好了。假设u0=(π0,A0,B0),那么我们可以计算出对应一个身高数据是男生还是女生的概率大小，然后我们根据这个比例去算该情况下最可能的参数u1。解释下下面的公式，其中X为隐藏状态序列，O为观测序列，在观测和之前参数条件下求现在条件期望的最大值对应的新参数。这里可能有点绕口，大家可以仔细想下，就是对应不同的X序列我们求出一个状态概率，这个概率来自于上一次的参数。然后根据这个序列我们求出新参数下的概率，然后对其相乘求和，这就是一个期望的概念。这个公式我尽量的想去形象化的理解，但总感觉说不太通，这里我就不多解释了，总之，在数学推导上，这个式子是完全可以用EM算法得到的。虽然这个存在于EM之前，我们这里就不纠结了，大家默认就好。
这里写图片描述
到这里我们实际上就可以利用约束最优化的问题去求解HMM中的参数学习问题了。现在虽然是数学公式，而且看得有点头晕，但是最少我们可以求出一个新参数了，此处并没有证明这个算法是全局最优或者是单调的，这个不知道当时那个作者有没有考虑这个问题，总之后来人们证明了baum-welch算法是EM算法的一个特例。并且证明了单调性，这个之后再讲，我们先看看baum-welch算法是如何操作的。

baum-welch算法的思路

注意：因为实在不想自己抄一遍公式，所以后文中符号体系与上述内容略有不符，O表示观测序列，I表示隐藏状态序列，λ表示参数即上述u。
有上面这个公式之后，我这里直接借用李航书中的计算，因为涉及到最优化问题，暂时还没有系统的学习，所以直接上截图吧。这里特别说明（10.33）书中是有特别注释的，其省略了常数因子1/P(O|λ)，所以写成了联合概率的形式。
这里写图片描述

同理之后得出下面结论：

好了，看着上面的代码，都是在以上期望公式+约束最大化产生的结果，我们已经可以快完成整个算法了，现在的最后一步就是如何去计算公式中的几个概率。

P(O,i1=i|λ)p(O,it=i,it+1=j|λ)

终于到了讲前后向算法的时候了，个人认为前后向算法的引入就是为了计算上面概率的，而不是一开始就引入了后向变量，这个因果关系上我认为这样说比较符合当时的推导思路吧。

后向算法与前向算法相同，这里给出后向变量的定义:βt(i) = P(Ot+1,OT|it=i,λ) 该公式表示在it时刻状态为i的情况下，后面到T时刻观测序列的概率情况。由于最后一个时刻没有OT+1,所以直接硬性规定β（T） = 1,递归公式如下：β1(i) = 1 i∈[1,N]βt(i) = ∑j  aij*bjot+1βt+1(j)  i∈[1,N] t∈[1,T-1]推导P(O,i1=i|λ)αt(i) = P(O1,O2...Ot,it=i|λ)βt(i) = P(Ot+1，...,OT|it=i,λ)P(O,it=i|λ) = P(O1,O2...Ot,it=i,Ot+1,..OT |λ)                   = P(O1,O2...Ot,it=i|λ) * P(Ot+1，...,OT|it=i,O1,O2...Ot,λ)                    = P(O1,O2...Ot,it=i|λ) * P(Ot+1，...,OT|it=i,λ)                 = αt(i) * βt(i) 这里推导的公式，有一个独立性的假设，这里并不太清楚，感觉可能观测序列就是独立的吧？不然这个等式也就变不过来了。

好勒，我们再来看两个变量，这两个变量分别表示，从某t时刻i状态的概率，和某t时候i状态到下个状态j的概率。这是Baum-welch算法里面描述的两个期望。
这里写图片描述

根据以上两个期望，我们带入重估函数里面，得到如下结果。

上面式子虽然是数学推导而来，但是同样具有特别强的概率含义。

这次真的完结撒花了！小结一下，我们从EM算法的思想入手，考虑了我们的迭代函数，对就是这个期望这里写图片描述
然后我们直接对他求导，差分开来，利用拉格朗日乘子法求出了各个重估函数，并且他们具有很明显的概率意义。之后我们引入了前后向算法来表示P（O,it=i|λ）概率，这一步完全是方便计算。最后我们引入两个中间期望变量γ和ε。好了下面给出代码啦^_^~

python代码baum-welch算法

 #计算公式中的beita二维数组    def _backward(self,observationsSeq):        T = len(observationsSeq)        N = len(self.pi)        beta = np.zeros((T,N),dtype=float)        beta[T-1,:] = 1        for t in reversed(range(T-1)):            for n in range(N):                beta[t,n] = np.sum(self.A[n,:] * self.B[:,observationsSeq[t+1]] * beta[t+1,:])        return beta    #前后向算法学习参数    def baumWelch(self,observationsSeq,criterion=0.001):        T = len(observationsSeq)        N = len(self.pi)        while True:            # alpha_t(i) = P(O_1 O_2 ... O_t, q_t = S_i | hmm)            # Initialize alpha            alpha = self._forward(observationsSeq)            # beta_t(i) = P(O_t+1 O_t+2 ... O_T | q_t = S_i , hmm)            # Initialize beta            beta = self._backward(observationsSeq)            #根据公式求解XIt(i,j) = P(qt=Si,qt+1=Sj | O,λ)            xi = np.zeros((T-1,N,N),dtype=float)            for t in range(T-1):                denominator = np.sum( np.dot(alpha[t,:],self.A) * self.B[:,observationsSeq[t+1]] * beta[t+1,:])                for i in range(N):                    molecular = alpha[t,i] * self.A[i,:] * self.B[:,observationsSeq[t+1]] * beta[t+1,:]                    xi[t,i,:] = molecular / denominator            #根据xi就可以求出gamma，注意最后缺了一项要单独补上来            gamma = np.sum(xi,axis=2)            prod = (alpha[T-1,:] * beta[T-1,:])            gamma = np.vstack((gamma, prod /np.sum(prod)))            newpi = gamma[0,:]            newA = np.sum(xi,axis=0) / np.sum(gamma[:-1,:],axis=0).reshape(-1,1)            newB = np.zeros(self.B.shape,dtype=float)            for k in range(self.B.shape[1]):                mask = observationsSeq == k                newB[:,k] = np.sum(gamma[mask,:],axis=0) / np.sum(gamma,axis=0)            if np.max(abs(self.pi - newpi)) < criterion and \                                    np.max(abs(self.A - newA)) < criterion and \                                    np.max(abs(self.B - newB)) < criterion:                break            self.A,self.B,self.pi = newA,newB,newpi

Baum-welch算法可行性

Baum-welch算法的公式实际就是EM的Q函数，下面大致看下怎么推到的吧，其中用到了Jensen不等式,还是截图吧，只能理解，还不能把推倒理由讲彻底，这就是数学的魅力吧！
这里写图片描述
Jensen公式很重要的一点就是把log给变了位置，这样后续计算也是十分有利的，方便引入约束最优化问题。但是Baum-welch过程中貌似直接用期望公式的变化达到了这一点，本人暂时还没想特别明白。之后有人证明了EM算法的局部最优性，这是一个收敛的算法，并且局部最优。大家知道这些就差不多了，更为详细的还是去看数学书吧。

词性标注实例

（此时，这博客已经写了8个小时了。）
上面讲完了所有的代码和推导，现在举个简单的小例子来看看HMM的效果。
先坑，有空补

一些问题

多样本标注：
现在我们可以根据一个观测值去计算参数，但是对于多个序列，我们如何去操作呢，这是一个很实际的问题，能不能像神经网络里面一下，每个样本修改一点参数，到达较好的效果，网上有一些说法，可以取均值或者其他，这个如果有大神了解，欢迎指导。

Gaussian-HMM:
hmmlearn里面碰到了Gaussian-HMM的东西，一般我们假设观测和隐状态是离散的，不过可能并不都是这样。这是考虑观测连续且服从高斯分布的情况

github上面有比较完整的代码，想看的可以看下下，暂时没有提供完整的应用代码，只是简单的算法实现，以及基础工具。
https://github.com/Continue7777/HMM/

阅读全文

1 0