最大熵

来源:互联网 发布:视频混合软件 编辑:程序博客网 时间:2024/05/19 12:25

最大熵

最大熵方法通常描述为:从所有符合已知知识的分布中选择信息熵最大的分布
主要内容:

  • boltzmann distribution
  • maxmium entropy principle
  • constraint rule
  • approximate

boltzmann distribution

物理学家玻尔兹曼使用过一个例子:
n个骰子于桌子上,所有骰子出现的点数之和为nα。出现i点(i=1,2,,6)的骰子的比例是多大?
要选择一种最可能的比例,可以计算某种比例(n1,,n6)对应的投掷方式数。每种投掷方式概率相等,则对应的投掷方式数越多则越可能。一个宏观状态(n1,,n6)对应(nn1,,n6)种微观状态,每个微观状态的概率为16n
在约束条件

i=16ini=nαi=1ni=n
下求(nn1,,n6)最大值。
利用斯特林公式,n!=(ne)n,可以得到:
(nn1,,n6)(ne)n6i=1(nie)ni=enH(nin,,n6n)
所以等价于求熵的最大值。
在总和一定的情况下,某个骰子出现不同点数的概率也是不同的。所有骰子可能的投掷方式越多,可能性越大。它的边缘分布服从boltzmann分布。

maxmium entropy principle

Jaynes改变了原始含义,希望根据”least biased”推测概率分布。
定义变量x 可能取值xi(i=1,2,,n)。我们并不知道每个值对应的概率pi ,只知道函数f(x)的期望值:

<f(x)>=i=1npif(xi)

在这些信息的基础上,如何求出某个函数g(x) 的期望值?这个问题看上去解不出来。因为信息不够充分,解不出pi 。再加上一个归一化约束
i=1npi=1
还需要再补充n2个条件才行。

在较少的信息下确定概率是一个古老的问题。Laplace的”Principle of Insufficient Reason”给出了一个选择标准:两个事件在没有其他信息的情况下应该分配相等的概率。然而,除了满足对称性外,这个标准看起来没什么依据。

我们的问题是找到概率分布,它需要满足已知的信息,并且满足无偏原则。信息论提供了衡量不确定性的标准,我们可以在满足已知信息的条件下,让信息熵最大化,对未知信息做最少的假设

在分布符合指数分布族时,极大似然估计的样本均值满足期望,这时最大熵分布和极大似然估计得到的结果一致。
如果在已知一些函数f1(x),fm(x)的期望下,使用指数分布族,可以得到如下形式

pβ1βm(x)=eβ1f1(x)βmfm(x)Z(β1,,βm)
把它看作抽样分布,包含参数β为Lagrange乘子。选择一个特定的分布,就相当于估计一组参数β
N 组独立重复实验中获得结果x⃗ =(x1,,xN) ,得到似然函数
Lx⃗ (β1,,βm):=pβ1βm(x⃗ )

求似然函数极大值,让导数为0得到等式:
f¯k:=1Nj=1Nfk(xj)=βklogZ(β1,,βm)
由于
Z(β1,,βm)=xeβ1f1(x)βmfm(x)
可以得到
βklogZ(β1,,βm)=xfk(x)pβ1βm(x)=<fk>β1βm

constraint rule

最大熵原则的约束条件是有争议的,为什么让f¯=<f> 呢?上面只是证明了在指数分布族前提下这样符合极大似然估计,但是别的情况呢?
如果把f 换成 f1 ,约束条件变成f1¯¯¯¯¯=<f1>, 不也可以吗?但是这样会得到不同的分布。
看一个掷骰子的例子。假设掷了N 次,点数为i 的情况出现了Ni 次,让ni=NiN ,并且

iini=3.5

通过最大熵,显然骰子是均匀的,pi=16
但是通过贝叶斯方法,结果却不同,并且随着N 的增加,差距也越来越大。
假设先验分布是均匀分布
φ(p1,,p6)=5!δ(ipi1)
其中pi0,i=1,,6δ 是狄拉克δ函数。

然后是似然函数

P(N1,,N6|p1,p6)=N!N1!N6!pN11pN66

P(N1,,N6)=P(N1,,N6|p1,,p6)φ(p1,,p6)dp1p6=5!N!(N+5)!

得到后验概率
φ(p1,,p6|N1,,N6)=P(N1,,N6|p1,,p6)φ(p1,,p6)P(N1,,N6)=(N+5)!N1!N6!pN11pN66δ(ipi1)

P(iN+1=i|N1,,N6)=piφ(p1,,p6|N1,,N6)dp1p6=Ni+1N+6

1NiiNi=a
P(xN+1=i|1NiiNi=a)=P(xN+1=i|N1,,N6)P(N1,,N6)P(1NiiNi=a)=(Ni+1)6k=1(Nk+1)

这个式子不太容易看出来分布规律,可以列一张表

p p1=p6 p2=p5 p3=p4 N=2 0.1667 0.1667 0.1667 N=4 0.1500 0.1667 0.1833 N=20 0.1440 0.1658 0.1901 N=30 0.1432 0.1658 0.1909 N=60 0.1423 0.1658 0.1919

可以看到,随着N 的增加,骰子会更偏向3和4

approximate

最大熵常常作为一种近似方法。
X1,,Xn是i.i.d.且服从分布Q(x)。定义集合E

E={P:aP(a)gj(a)αj,j=1,,k}

为在E中找到最接近于Q的分布,可以求D(PQ)的最小值。利用拉格朗日乘子法,构造泛函:

J(P)=xP(x)logP(x)Q(x)+iλixP(x)gi(x)+υxP(x)

对其求微分,可以计算出最接近于Q的分布具有形式

P(x)=Q(x)eiλigi(x)aχQ(a)eiλigi(a)

其中λi根据满足约束条件确定。
Q是均匀的,则P是最大熵分布。

参考的资料

  • http://bactra.org/notebooks/max-ent.html
  • 信息论基础
  • Jaynes Information Theory And Statistical Mechanics I
  • The Constraint Rule of the Maximum Entropy Principle
0 0
原创粉丝点击