条件随机场(Conditinal random field)

来源:互联网 发布:中国股市周期 知乎 编辑:程序博客网 时间:2024/06/05 16:51

条件随机场(Conditinal random field, CRF)是给定一组随机变量条件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔科夫随机场。即输出变量之间存在成对马尔科夫性,局部马尔可夫性和全局马尔可夫性。成对马尔可夫性:假设u,v为无向图G中任意两个没有边连接的节点,那么在给定其它剩余节点的条件下随机变量Yu,Yv是条件独立的。局部马尔可夫性:假设v为无向图G中任意一个节点,W为与v有边连接的所有节点,O为除v,W外的所有节点,那么在给定随机变量组YW的条件下随机变量Yv与随机变量组YO是独立的。全局马尔可夫性:设节点集合A,B是在无向图G中被节点集合C分开的任意节点集合,那么给定在给定随机变量组YC的条件下随机变量组YAYB是独立的。上述成对马尔科夫性,局部马尔可夫性和全局马尔可夫性是相互等价的。
X,Y是随机变量,P(Y|X)是在给定X的条件下Y的条件概率分布。若随机变量Y构成一个由无向图G=(V,E)表示的马尔科夫随机场,即:

P(Yv|X,YW,YO)=P(Yv|X,YW)

对任意节点v成立,则称条件概率分布P(Y|X)为条件随机场。式中W,O分别表示为与v有边连接的所有节点,为除v,W外的所有节点,即满足局部马尔可夫性。在实际问题中,我们更关心的是如何求其联合概率分布。对概率无向图模型,我们希望将整体的联合概率写成若干子联合概率的乘积形式,即将联合概率进行因子分解,便于模型的学习与计算。一般来说,将概率无向图模型的联合概率分布表示为其最大团上的随机变量的函数的乘积形式。根据Hammersley-Clifford定理,概率无向图模型的联合概率分布P(Y)表示为如下形式:
P(Y)=1ZCΨC(YC)Z=YCΨC(YC)

其中C是无向图的最大团,YCC的节点对应的随机变量,ΨC(YC)C上定义的严格正函数,称为势函数,通常定义为ΨC(YC)=exp{E(YC)}。根据上式定义,通常也称该模型为对数线性模型。下面我们详细讨论该模型以及CRF在计算机视觉领域中的应用。

1. 最大熵模型的关系

最大熵模型基于最大熵原理,认为在学习概率模型时,在所有可能的概率模型(分布)中,熵最大的模型才是最好的模型。直观的,概率模型必须满足已有的事实,即最大熵原理也可表述为在满足约束条件的模型集合中选取熵最大的模型。假设分类模型是一个条件概率分布P(Y|X)XX表示输入,YY表示输出;给定一个训练数据集T={(xi,yi),,(xn,yn)},学习的目标就是利用最大熵原理选择最好的分类模型P(Y|X)
首先考虑模型的约束条件。根据训练数据集T,我们可以确定经验联合分布P^(X,Y)和经验边缘分布P^(X),即利用频数简单统计;特征函数f(x,y)描述输入x和输出y之间的某一个事实,若满足事实取1,反之取0,一个典型的二值函数。
那么特征函数关于经验联合概率分布P^(X,Y)的期望为

EP^(f)=x,yP^(X,Y)f(x,y)

特征函数关于模型P(Y|X)和经验边缘分布P^(X)的期望为
EP(f)=x,yP^(X)P(Y|X)f(x,y)

如果模型能获取训练数据中的信息,那么可以假设两个期望相等。因此最大熵模型的学习等价于约束最优化问题:
maxPCH(P)=x,yP^(X)P(Y|X)logP(Y|X)s.t.EP^(fi)=EP(fi),i=1,,nyP(y|x)=1

按照最优化问题的习惯,一般将最大值问题改写为等价的最小值问题求解(即minPCH(P))。这里,将约束最优化的原始问题转换为无约束的对偶问题,通过求解对偶问题求解原始问题。引进拉格朗日乘子w0,,wn,定义拉格朗日函数L(P,w)
L(P,w)=H(P)+w0(1yP(y|x))+i=1nwi(EP^(fi)EP(fi))

原始问题对应的对偶问题为maxwminPL(P,w)。由于拉格朗日函数时P的凸函数,因此原始问题的解与对偶问题的解是等价的。这里,我们只求解内部的极小化问题minPL(P,w)L(P,w)P(y|x):
L(P,w)P(y|x)=x,yP^(x)(1+logP(y|x))yw0x,y(P^(x)iwifi(x,y))=x,yP^(x)(1+logP(y|x)w0iwifi(x,y)))

令偏导等于0,在P^(x)>0的情况下,解得
P(y|x)=exp(iwifi(x,y)+w01)=exp(iwifi(x,y))1w0

由于yP(y|x)=1,
Pw(y|x)=1Zw(x)exp(iwifi(x,y))Zw(x)=yexp(iwifi(x,y))

上述即为最大熵模型,其中w为参数向量,fi(x,y)。可以看出最大熵模型与CRF在形式上很类似;但是两者刻画的对象不同,CRF从概率图模型出发,主要刻画随机变量之间的相关性;而最大熵模型基于最大熵原理进行模型的选择。

原创粉丝点击