数学之美--隐含马尔科夫模型

来源：互联网发布：算法公倍数怎么求编辑：程序博客网时间：2024/06/15 02:36

保留初心，砥砺前行

这是令人兴奋的一个章节。

因为科研中总是充满了马尔科夫。

隐含马尔科夫模型也是机器学习的主要工具之一。

引用这句话的目的也是为了证明这一章节的重要性。

引例：

在通信模型中，信息源发出信号s₁,s₂,s₃,…，接收器收到o₁,0₂,0₃,…。解码操作就是通过收到的o₁,0₂,0₃,…还原回s₁,s₂,s₃,…。
如何根据o₁,0₂,0₃,…得到s₁,s₂,s₃,…，可以把这项工作理解成由o₁,0₂,0₃,…，最有可能产生哪一种s₁,s₂,s₃,…。解释成概率论的语言就是在o₁,0₂,0₃,…已知的情况下，求P(s₁,s₂,s₃,…|o₁,0₂,0₃,…)达到最大时的那一串s₁,s₂,s₃,…。也就是如下公式：

![](http://www.forkosh.com/mathtex.cgi? S_{1},S_{2},S_{3},S_{4},\ldots =ArgMaxP\left( S_{1},S_{2},S_{3},\ldots |O_{1},O_{2},O_{3},\ldots \right))
利用贝叶斯公式，可以把上式等价变成

![](http://www.forkosh.com/mathtex.cgi? \dfrac {P\left(O_{1},O_{2},O_{3} ,O_{4} ,\ldots |S_{1},S_{2},S_{3},\ldots \right)\cdot P\left( S_{1},S_{2},S_{3}\right)} {P\left( O_{1},O_{2},O_{3}\right)})

其中，分子的左边的P代表在信息s₁,s₂,s₃,…经过传输后变成o₁,0₂,0₃,…的可能性；右边的P代表是一个正常信号的概率；分母代表接发送端产生信息o₁,0₂,0₃,…的可能性。

o₁,0₂,0₃,…一旦产生，就不会再发生变化，因此P(o₁,0₂,0₃,…)可以看作一个常数，上面公式就可以等价成

![](http://www.forkosh.com/mathtex.cgi?{P\left(O_{1},O_{2},O_{3} ,\ldots |S_{1},S_{2},S_{3},\ldots \right)\cdot P\left( S_{1},S_{2},S_{3}\right)} )

这个公式可以用隐含马尔科夫模型来估计。

隐含马尔科夫模型

马尔科夫假设在随机过程中每个状态s_t的概率分布，只与它的前一个状态s_t-1有关，即!
符合这个假设的随机过程成为马尔科夫过程，也称为马尔科夫链。

这一段是重点内容：
可以把这个马尔科夫链想象成一台机器，它随机的选择一个状态作为初始状态开始运行，并且按照马尔科夫链的规则持续选择后续状态。这样在运行了一段时间T后，就会产生一个状态序列：s₁,s₂,s₃,… ,s_T。根据这个序列，很容易得到某个状态s_i出现的次数#(s_i)，也很容易得到s_i转换到s_j的次数#(s_i,s_j)。从而得到s_i转移到s_j的概率：#(s_i,s_j) / #(s_i)。

隐含马尔科夫模型是上述马尔科夫链的一个扩展。

隐含马尔科夫模型中任意时刻t的状态s_t是不可见的。因此上述的根据观察序列得到概率的方式都不再working。幸好隐含马尔科夫模型在每个t都会输出一个符号o_t，这个o_t与s_t相关并且只与s_t相关，这个被称为独立输出假设。

隐含马尔科夫模型

上图中下边一层的4个状态s不可见，这些s是典型的马尔科夫链，而它们输出的符号o是可见的。

根据上述的独立输出假设，我们可以得到如下公式：

![](http://www.forkosh.com/mathtex.cgi?{P\left(O_{1},O_{2},O_{3} ,\ldots |S_{1},S_{2},S_{3},\ldots \right)=\prod {t}P\left( o{t}|s_{t}\right)} )

根据上述的马尔科夫假设，我们可以得到如下公式：

![](http://www.forkosh.com/mathtex.cgi?{P\left( S_{1},S_{2},S_{3},\ldots\right)=\prod {t}P\left( s{t}|s_{t-1}\right)} )

使用以上两个公式与之前的通信问题中的最终推导式

![](http://www.forkosh.com/mathtex.cgi?{P\left(O_{1},O_{2},O_{3} ,\ldots |S_{1},S_{2},S_{3},\ldots \right)\cdot P\left( S_{1},S_{2},S_{3}\right)} )

相比较，可以容易地看出这些公式在形态上相似。把独立输出和马尔科夫假设的两个公式相乘，可以正好得到之前在通信问题中我们所要求的内容。因此通信的解码问题完全可以使用隐含马尔科夫模型来解决。

就像前文所说的那样，我们要找到的是那个公式的所有参数情况下，概率最大的那一组s₁,s₂,s₃,…。至于如何找到最大的概率进而找到这组状态串，可以利用维特比算法，在后边的章节会介绍。

阅读全文

0 0