KL散度与极大似然

来源：互联网发布：美工需要做什么编辑：程序博客网时间：2024/05/19 13:25

极大似然估计是一种概率论在统计学中的应用，建立在极大似然原理的基础上，极大似然原理的直观解释是：一个随机试验如有若干个可能的结果A、B、C、…，若在一次试验中，结果A出现，则一般认为试验条件对A出现有利，也即A出现的概率很大，那么就取参数估计，使A出现的概率最大。

设随机变量Y具有概率密度函数，θ是参数向量。当我们得到Y的一组独立观测值时，定义θ的似然函数为。极大似然法是采用使L(θ)最大的θ的估计值作为参数值。

为了计算方便，我们通常求使最大的θ的估计值，这与L(θ)最大是等价的，由于，当，几乎处处有

在观测样本已知的情况下，N是定值，那么，极大似然估计是使最大的θ的估计值。若Y的真实分布的密度函数为g(y)，我们有

衡量两个分布g(·)和f(·|θ)差异性的统计量KL散度（或者相对熵）为：

只有当g(y)等于f(y|θ)时，KL散度才为0，因此，当随机变量Y给定时，为定值，最大化，就是最小化，即求最近似于g(y)的f(y|θ)。这个解释从信息论的角度透彻地说明了极大似然法的本质。

KL-divergence，俗称KL距离，常用来衡量两个概率分布的距离。

根据shannon的信息论，给定一个字符集的概率分布，我们可以设计一种编码，使得表示该字符集组成的字符串平均需要的比特数最少。假设这个字符集是X，对x∈X，其出现概率为P(x)，那么其最优编码平均需要的比特数等于这个字符集的熵：

H(X)=∑x∈XP(x)log[1/P(x)]=-∑x∈XP(x)log（p(x)）

在同样的字符集上，假设存在另一个概率分布Q(X)。如果用概率分布P(X)的最优编码（即字符x的编码长度等于log[1/P(x)]），来为符合分布Q(X)的字符编码，那么表示这些字符就会比理想情况多用一些比特数。KL-divergence就是用来衡量这种情况下平均每个字符多用的比特数，因此可以用来衡量两个分布的距离。即：

DKL(Q||P)=∑x∈XQ(x)[log(1/P(x))] - ∑x∈XQ(x)[log[1/Q(x)]]=∑x∈XQ(x)log[Q(x)/P(x)]

由于-log(u)是凸函数，因此有下面的不等式

DKL(Q||P) = -∑x∈XQ(x)log[P(x)/Q(x)] = E[-logP(x)/Q(x)] ≥ -logE[P(x)/Q(x)] = -log∑x∈XQ(x)P(x)/Q(x) = 0

即KL-divergence始终是大于等于0的。当且仅当两分布相同时，KL-divergence等于0。

===========================

举一个实际的例子吧：比如有四个类别，一个方法A得到四个类别的概率分别是0.1,0.2,0.3,0.4。另一种方法B（或者说是事实情况）是得到四个类别的概率分别是0.4,0.3,0.2,0.1,那么这两个分布的KL-Distance(A,B)=0.1*log(0.1/0.4)+0.2*log(0.2/0.3)+0.3*log(0.3/0.2)+0.4*log(0.4/0.1)

这个里面有正的，有负的，可以证明KL-Distance()>=0.

从上面可以看出， KL散度是不对称的。即KL-Distance(A,B)!=KL-Distance(B,A)

KL散度是不对称的，当然，如果希望把它变对称，

Ds(p1, p2) = [D(p1, p2) + D(p2, p1)] / 2

阅读全文

0 0