最大熵

来源：互联网发布：视频混合软件编辑：程序博客网时间：2024/05/19 12:25

最大熵

最大熵方法通常描述为：从所有符合已知知识的分布中选择信息熵最大的分布
主要内容：

boltzmann distribution
maxmium entropy principle
constraint rule
approximate

boltzmann distribution

物理学家玻尔兹曼使用过一个例子：
掷n个骰子于桌子上，所有骰子出现的点数之和为nα。出现i点(i=1,2,⋯,6)的骰子的比例是多大？
要选择一种最可能的比例，可以计算某种比例(n1,⋯,n6)对应的投掷方式数。每种投掷方式概率相等，则对应的投掷方式数越多则越可能。一个宏观状态(n1,⋯,n6)对应(nn1,⋯,n6)种微观状态，每个微观状态的概率为16n。
在约束条件

\sum i = 1 6 i n i = n α \sum i = 1 n i = n

下求

(nn1,⋯,n6)最大值。
利用斯特林公式，

n!=(ne)n，可以得到：

(n n 1 , \dots , n 6) \approx ( n e ) n \prod 6 i = 1 ( n i e ) n i = e n H (n i n, \dots, n 6 n)

所以等价于求熵的最大值。
在总和一定的情况下，某个骰子出现不同点数的概率也是不同的。所有骰子可能的投掷方式越多，可能性越大。它的边缘分布服从boltzmann分布。

maxmium entropy principle

Jaynes改变了原始含义，希望根据”least biased”推测概率分布。
定义变量x 可能取值xi(i=1,2,⋯,n)。我们并不知道每个值对应的概率pi ，只知道函数f(x)的期望值:

< f (x) > = \sum i = 1 n p i f (x i)

在这些信息的基础上，如何求出某个函数

g(x) 的期望值？这个问题看上去解不出来。因为信息不够充分，解不出

pi 。再加上一个归一化约束

\sum i = 1 n p i = 1

还需要再补充

n−2个条件才行。

在较少的信息下确定概率是一个古老的问题。Laplace的”Principle of Insufficient Reason”给出了一个选择标准：两个事件在没有其他信息的情况下应该分配相等的概率。然而，除了满足对称性外，这个标准看起来没什么依据。

我们的问题是找到概率分布，它需要满足已知的信息，并且满足无偏原则。信息论提供了衡量不确定性的标准，我们可以在满足已知信息的条件下，让信息熵最大化，对未知信息做最少的假设。

在分布符合指数分布族时，极大似然估计的样本均值满足期望，这时最大熵分布和极大似然估计得到的结果一致。
如果在已知一些函数f1(x),⋯fm(x)的期望下，使用指数分布族，可以得到如下形式

p β 1 \dots β m (x) = e - β 1 f 1 ( x ) \dots - β m f m ( x ) Z ( β 1 , \dots , β m )

把它看作抽样分布，包含参数

β为Lagrange乘子。选择一个特定的分布，就相当于估计一组参数

β
在

N 组独立重复实验中获得结果

x⃗ =(x1,⋯,xN) ，得到似然函数

L x ⃗ (β 1, \dots, β m) : = p β 1 \dots β m (x ⃗)

求似然函数极大值，让导数为0得到等式：

f ¯ k : = 1 N \sum j = 1 N f k (x j) = - \partial \partial β k log Z (β 1, \dots, β m)

由于

Z (β 1, \dots, β m) = \sum x e - β 1 f 1 (x) \dots β m f m (x)

可以得到

- \partial \partial β k log Z (β 1, \dots, β m) = \sum x f k (x) p β 1 \dots β m (x) = < f k > β 1 \dots β m

constraint rule

最大熵原则的约束条件是有争议的，为什么让f¯=<f> 呢？上面只是证明了在指数分布族前提下这样符合极大似然估计，但是别的情况呢？
如果把f 换成 f−1 ，约束条件变成f−1¯¯¯¯¯=<f−1>，不也可以吗？但是这样会得到不同的分布。
看一个掷骰子的例子。假设掷了N 次，点数为i 的情况出现了Ni 次，让ni=NiN ，并且

\sum i i n i = 3.5

通过最大熵，显然骰子是均匀的，

pi=16
但是通过贝叶斯方法，结果却不同，并且随着

N 的增加，差距也越来越大。
假设先验分布是均匀分布

φ (p 1, \dots, p 6) = 5! δ (\sum i p i - 1)

其中

pi≥0,i=1,⋯,6，

δ 是狄拉克

δ函数。

然后是似然函数

P (N 1, \dots, N 6 | p 1, \dots p 6) = N ! N 1 ! \dots N 6 ! p N 1 1 \dots p N 6 6

P (N 1, \dots, N 6) = \int \dots \int P (N 1, \dots, N 6 | p 1, \dots, p 6) φ (p 1, \dots, p 6) d p 1 \dots p 6 = 5 ! N ! ( N + 5 ) !

得到后验概率

φ (p 1, \dots, p 6 | N 1, \dots, N 6) = P ( N 1 , \dots , N 6 | p 1 , \dots , p 6 ) φ ( p 1 , \dots , p 6 ) P ( N 1 , \dots , N 6 ) = ( N + 5 ) ! N 1 ! \dots N 6 ! p N 1 1 \dots p N 6 6 δ (\sum i p i - 1)

P (i N + 1 = i | N 1, \dots, N 6) = \int \dots \int p i φ (p 1, \dots, p 6 | N 1, \dots, N 6) d p 1 \dots p 6 = N i + 1 N + 6

当

1N∑iiNi=a 时

P (x N + 1 = i | 1 N \sum i i N i = a) = \sum ' P ( x N + 1 = i | N 1 , \dots , N 6 ) P ( N 1 , \dots , N 6 ) P ( 1 N \sum i i N i = a ) = \sum ' ( N i + 1 ) \sum 6 k = 1 \sum ' ( N k + 1 )

这个式子不太容易看出来分布规律，可以列一张表

p1=p6

p2=p5

p3=p4

N=2

0.1667

N=4

0.1500

0.1667

0.1833

N=20

0.1440

0.1658

0.1901

N=30

0.1432

0.1658

0.1909

N=60

0.1423

0.1658

0.1919

可以看到，随着N 的增加，骰子会更偏向3和4

approximate

最大熵常常作为一种近似方法。
若X1,⋯,Xn是i.i.d.且服从分布Q(x)。定义集合E

E = {P : \sum a P (a) g j (a) \geq α j, j = 1, \dots, k}

为在E中找到最接近于Q的分布，可以求D(P∥Q)的最小值。利用拉格朗日乘子法，构造泛函：

J (P) = \sum x P (x) log P ( x ) Q ( x ) + \sum i λ i \sum x P (x) g i (x) + υ \sum x P (x)

对其求微分，可以计算出最接近于Q的分布具有形式

P * (x) = Q ( x ) e \sum i λ i g i ( x ) \sum a \in χ Q ( a ) e \sum i λ i g i ( a )

其中

λi根据满足约束条件确定。
若

Q是均匀的，则

P∗是最大熵分布。

参考的资料

http://bactra.org/notebooks/max-ent.html
信息论基础
Jaynes Information Theory And Statistical Mechanics I
The Constraint Rule of the Maximum Entropy Principle

0 0