最大熵（一）

来源：互联网发布：微商城分销php开发手册编辑：程序博客网时间：2024/06/07 18:42

熵的定义

H (P) = - \sum x P (x) l o g P (x)

熵的范围

0 \leq H (p) \leq l o g | X | | X | 是 X 的 取 值 个 数 。

熵大于0很显然。下面证明后半部分

0 \leq K L (p | u) = \sum x p (x) l o g p ( x ) u ( x ) = \sum x p (x) l o g p (x) - \sum x p (x) l o g u (x) = - H (x) + l o g | X |

即

0 \leq - H (x) + l o g | X |

则

H (x) \leq l o g | X |

其中,KL(p|u)是KL divergence，表示概率分布p和u之间的相似程度，也叫相对熵(relative entropy)。定义如下

K L (p | q) = \sum k = 1 K p k l o g p k q k

这里的u定义为均匀分布，即

u(x)=1/|X|。

以上证明过程来自MLAPP 第二章。
上述证明说明均匀分布的熵最大。
其实后半部分的证明可以直接用拉格朗日法，约束是概率之和为1，对拉格朗日函数求偏导，令偏导为0，得到每个概率的值。然后再求此时的熵就得到相应的最大值了。

最大熵原理认为在所有满足条件的模型中熵最大的模型是最优的。将最大熵原理应用到分类上就是最大熵模型了。

在分类时我们的求解目标是后验分布P(y|x)。
假设满足所有约束条件的模型集合为C,定义在条件概率分布p(y|x)上的条件熵为

H (P) = - \sum x, y P ̂ (x) P (y | x) l o g P (y | x)

最大熵模型就是集合C中条件熵H(P)最大的模型。

那么最大熵模型都有哪些约束条件呢
首先定义特征函数f(x,y)

f (x ， y) = {10 {x 与 y 满 足 某 个 事 实} {否 则}

特征函数关于经验分布

P̂ (x,y)的期望值

Ep̂ (f)定义为

E p ̂ (f) = \sum x, y p ̂ (x, y) f (x, y)

特征函数关于模型p(y|x)与经验分布p̂ (x)的期望Ep(f)定义为

E p (f) = \sum x, y p ̂ (x) p (y | x) f (x, y)

最大熵模型的约束条件就是

E p ̂ (f i) = E p (f i) i = 1, 2, . . ., n

这个约束条件的含义就是模型跟数据表达的信息是一致的。

最大熵模型的学习就是满足以上条件的约束最优化问题，定义如下：

m a x p \in C H (P) = - \sum x, y P ̂ (x) P (y | x) l o g P (y | x) s . t . E p ̂ (f i) = E p (f i) i = 1, 2, . . ., n \sum y P (y | x) = 1

将上述问题转化为等价的最小化问题:

m i n p \in C - H (P) = \sum x, y P ̂ (x) P (y | x) l o g P (y | x) s . t . E p ̂ (f i) - E p (f i) = 0, i = 1, 2, . . ., n \sum y P (y | x) = 1

这里将上述问题转化为无约束最优化的对偶问题，通过求解对偶问题求解原始问题。

L (P, w) = - H (P) + w 0 ⎛ ⎝ ⎜ ⎜ 1 - \sum y p (y | x) ⎞ ⎠ ⎟ ⎟ + \sum i = 1 n w i ⎛ ⎝ ⎜ ⎜ \sum x, y E p ̃ (f i) - E p (f i) ⎞ ⎠ ⎟ ⎟ = \sum x, y p ̃ (x) p (y | x) log (p (y | x)) + w 0 ⎛ ⎝ ⎜ ⎜ 1 - \sum y p (y | x) ⎞ ⎠ ⎟ ⎟ + \sum i = 1 n w i ⎛ ⎝ ⎜ ⎜ \sum x, y p ̃ (x, y) f i (x, y) - \sum x, y p ̃ (x) p (y | x) f i (x, y) ⎞ ⎠ ⎟ ⎟

原始问题为

m i n p \in C m a x w L (P, w)

对偶问题为

m a x w m i n P \in C L (P, w)

因为拉格朗日函数是P的凸函数，所以原始问题和对偶问题的解是等价的，这样可以通过求解对偶问题来求解原始问题。
下面求解对偶问题。

将对偶问题中内部的函数表示为

Ψ (w) = m i n p \in C L (P, w) = L w (P, w)

这个函数称为对偶函数。将其解记为

P w = a r g m i n p \in C L (P, w) = P w (y | x)

下面对拉格朗日函数求关于

p(y|x)的偏导。

\partial L ( P , w ) \partial p ( y | x ) = \sum x, y p ̃ (x) (log p (y | x) + 1) - \sum y w 0 - \sum x, y p ̃ (x) \sum i = 1 n w i f i (x, y) = \sum x, y p ̃ (x) (log p (y | x) + 1 - w 0 - \sum i = 1 n w i f i (x, y))

令偏导为0,求得

p (y | x) = e x p (\sum i = 1 n w i f i (x, y) + w 0 - 1) = e x p ( \sum n i = 1 w i f i ( x , y ) ) e x p ( 1 - w 0 )

然后再求对偶问题外面的最大化问题

m a x Ψ (w)

其解记为

w∗,即

w * = a r g m a x w Ψ (w)

后面书上证明了对偶函数其实就是对数似然函数。所以对偶函数极大化等价于最大熵模型的极大似然估计。

最大熵模型的一般形式为:

p (y | x) = e x p ( \sum n i = 1 w i f i ( x , y ) ) e x p ( 1 - w 0 ) = e x p ( \sum n i = 1 w i f i ( x , y ) ) Z w ( x )

其中,

Z w (x) = \sum y e x p (\sum i = 1 n w i f i (x, y))

从这里可以看出，最大熵模型跟逻辑回归模型形式很像，都是对数线性模型。

0 0