【PRML学习笔记】信息论与最大熵

来源：互联网发布：数据库本地保存位置编辑：程序博客网时间：2024/05/17 02:33

信息论与最大熵

序

If we are told that a highly improbable event has just occurred, we will have received more information than if we were told that some very likely event has just occurred, and if we knew that the event was certain to happen we would receive no information.

一、信息论

信息熵是人们对客观事件的不确定性的度量。正如序中所言，对于一个事物，我们知道的越有可能发生，那么我们用来找出确定的情况所需要得到信息就越少，反之亦然。
此外，信息熵还具有可加的性质。两个事物如果是不相关的，如果我们同时得到的两个事物，那么我们所接收的信息是可以叠加的。我们使用h(x)表示事件发生概率为p(x)的信息熵，那么刚才说的可加性可以表示为h(x,y)=h(x)+h(y)而对于概率来说p(x,y)=p(x)p(y)。所以我们可以用下面的式子来表示一个集合的信息熵：

h (x) = - log 2 p (x)

这里，负号使得信息熵的值大于等于零，此外底数为2表示

h(x)的单位为比特(bit)，当然这里也可以是另外的底数。
对于一个事件的集合{x}，每个事件对应的概率为

p(x),那么这个事件集合的信息熵的期望为

H [x] = - \sum x p (x) log 2 p (x)

换言之，对于一个离散的随机变量X，有M种实现，对应每一种实现

xi，它所对应的概率为

p(X=xi)=pi，那么随机变量X的信息熵为：

H [p] = - \sum i p (x i) log 2 p (x i)

对于连续的随机变量，从离散的情况进行推导，得到：

H [x] = - \int p (x) ln p (x) d x

对于多个连续随机变量的情况，变量可以表示为一个向量 x，它的信息熵为：

H [x] = - \int p (x) ln p (x) d x

二、最大熵

最大熵原理是一种选择随机变量统计特性最符合客观情况的准则，也称为最大信息原理。随机量的概率分布是很难测定的，一般只能测得其各种均值（如数学期望、方差等）或已知某些限定条件下的值（如峰值、取值个数等），符合测得这些值的分布可有多种、以至无穷多种，通常，其中有一种分布的熵最大。选用这种具有最大熵的分布作为该随机变量的分布，是一种有效的处理方法和准则。这种方法虽有一定的主观性，但可以认为是最符合客观情况的一种选择。在投资时常常讲不要把所有的鸡蛋放在一个篮子里，这样可以降低风险。在信息处理中，这个原理同样适用。
这里我们来计算几个简单的最大熵分布。对于离散的随机变量来说，因为0≤pi≤1，随机变量的信息熵最小值为0，当pi=1 和其他所有 pj≠i=0。而信息熵在标准化的限制情况下（概率之和为1），引入拉格朗日算子，最大值为：

H \sim = - \sum i p (x i) log 2 p (x i) + λ (\sum i p (x i) - 1)

解得当所有

pi相等时，信息熵最大，最大值为当

pi=1/M，

Hmax=lnM
如果是连续的随机变量，如果限定X的取值范围为[a,b]，在标准化的限制条件，那么信息熵的最大值同上式类比得到：

H \sim = - \int p (x) ln p (x) d x + λ (\int p (x) d x - 1) a \leq x \leq b

对

p(x)进行求导取值为0，得到当

p(x)=1b−a(a≤x≤b)时，即X为在[a,b]区间上为均匀分布时，熵最大，最大值为

Hmax=ln(b−a)

其次，当限制条件为：1、标准化状态（概率之和为1）2.一阶统计矩即平均数μ 3.二阶中心矩即方差σ2。用数学语言来表述为

\int p (x) d x = 1 (1)

\int x p (x) d x = μ (2)

\int x 2 p (x) d x = σ 2 (3)

在此限制条件下，求

H[x]=−∫p(x)lnp(x)dx的最大值。
参照上面的方法，引入拉格朗日算子得到：

H = - \int p (x) ln p (x) d x + λ 0 (\int p (x) d x - 1) + λ 1 (\int x p (x) d x - μ) + λ 2 (\int x 2 p (x) d x - σ 2)

对

p(x)进行求导取值为0，得到

- ln p (x) - 1 + λ 0 + λ 1 x + λ 2 (x - μ) 2 = 0

即：

p (x) = Z - 1 exp (λ 1 x + λ 2 (x - μ) 2) (4)

这里，

lnZ=−λ0+1为配分方程。书中是直接参考标准正态分布得到各系数，现在我们使用一般的推导：将（4）式做一个小变换得到：

p (x) = Z - 1 exp {λ 2 [x - (μ - λ 1 2 λ 2)] 2}

用

y=x−(μ−λ12λ2)替换x得到：

p (y + (μ - λ 1 2 λ 2)) = Z - 1 exp {λ 2 y 2} (5)

把（5）带入（1）得到

Z−1=−λ2π−−−√
把（5）带入（2）得到

∫yp(y)dy=λ12λ2=0（由于是奇函数）得

λ1=0
把（5）带入（3）得到

−λ2π−−−√π√2(−λ2)3/2=σ2解得：

λ2=−12σ2

所以在上述约束条件下，最大熵对应连续随机变量的概率密度函数为：

1 2 π - - \sqrt σ exp (- ( x - μ ) 2 2 σ 2)

该密度函数就是正态分布，同时推导的方法也是正态分布推导的方法之一。

阅读全文

1 0