HMM+CRF笔记

来源：互联网发布：php tools for vs2015 编辑：程序博客网时间：2024/05/18 17:25

HMM+CRF笔记

CRF就像一个反向的隐马尔可夫模型(HMM)，两者都是用了马尔科夫链作为隐含变量的概率转移模型，只不过HMM使用隐含变量生成可观测状态，其生成概率有标注集统计得到，是一个生成模型；而CRF反过来通过可观测状态判别隐含变量，其概率亦通过标注集统计得来，是一个判别模型。由于两者模型主干相同，其能够应用的领域往往是重叠的，但在命名实体、句法分析等领域CRF更胜一筹。

CRF和HMM都假设隐变量是满足马尔科夫性的，即当前状态仅和上一个状态有概率转移关系而与其它位置的状态无关。

HMM:从可观察的参数中确定该过程的隐含参数，然后使用隐含变量生成可观测状态，是一个生成模型。通过在一个标注集上进行统计，我们很容易得到一个概率转移矩阵，即任意词性A后紧邻任意词性B的概率都可以被统计出来。对词性与词语直接的映射概率，会直接统计词性-->单词的条件概率矩阵，比如 ”动词“ 生成 ”发射“的概率可能为1.5%，而生成”微软“的概率为0.然后对于每一种可能的词性序列结合与条件概率相乘就能得到每一个候选序列的生成概率，然而取概率最高的作为标注结果即可。

CRF:CRF通过可观测状态判别隐含变量，概率亦通过标注集统计得来，是一个判别模型。对CRF来说，可以在二维条件转移矩阵基础上再增加一维词语特征，如“当AB相邻，A是动词且B单词长度超过3时，B是名词的概率是xx"。对词性与词语直接的映射概率，CRF正好反过来，CRF通过发掘词语本身的特征（如长度，大小写，匹配特定词表等，也可以包括词语本身），把每个词语转化成为一个一维特征向量(vector)，然后对于每个特征计算特征到词性的条件概率，这样每个词语对候选词性的条件概率即为所有特征条件概率的加和。

比如我们假设特征向量只有两个，且P( ”词语长度>3" --> 名词词性）的概率为0.9，P("词语位于句子末尾“ --> 名词词性）概率为0.4，且一个词恰好满足这两个特征，则其为名词的条件概率为 (0.9 + 0.4) / 2 = 0.65.这样，CRF根据这个条件转移数值再结合词性的马尔科夫特性，就可以使用与HMM类似的方法寻找最优的词性标注序列了。

CRF优于HMM的地方在于，它可以引入更多的特征，包括词语本身特征和词语所在上下文的特征，而非单词本身。

HMM:不确定中间状态的情况最适合用隐马尔可夫模型来解释。这里的“隐”指的是其中某一阶的信息我们不知道，就像是我们知道人的祖先是三叶虫，但是由三叶虫经历了怎样的演变过程才演变到人的样子我们是不知道的，我们只能通过化石资料了解分布信息，如果这类资料很多，那么就可以利用隐马尔可夫模型来建模。

条件随机场：场表示取值范围，随机场表示随机变量有取值范围，也就是每个随机变量有固定的取值，条件指的是随机变量的取值由一定的条件概率决定，而这里的条件来自于我们有一些观察值，这是它区别于其他随机场的地方。条件随机场也可以看做是一个无向图模型，它特殊就特殊在给定观察序列X时某个特定的标记序列Y的概率是一个指数函数exp(∑λt+∑μs)，其中t是转移函数，s是状态函数，我们需要训练的是λ和μ。条件随机场主要应用在标注和切分有序数据上，尤其在自然语言处理、生物信息学、机器视觉、网络智能等方面。

阅读全文

1 0