统计自然语言处理——信息论基础

来源：互联网发布：淘宝手机怎么实名认证编辑：程序博客网时间：2024/05/02 10:32

信息是个相当宽泛的概念，很难用一个简单的定义将其完全准确的把握。然而，对于任何一个概率分布，可以定义一个称为熵(entropy)的量，它具有许多特性符合度量信息的直观要求。这个概念可以推广到互信息(mutual information)，互信息是一种测度，用来度量一个随机变量包含另一个随机变量的信息量。熵恰好变成一个随机变量的自信息。相对熵(relative entropy)是个更广泛的量，它是刻画两个概率分布之间距离的一种度量，而互信息又是它的特殊情形。

信息熵

——随机变量不确定度的度量

设p(x)为随机离散变量X的概率密度函数，x属于某个符号或者字符的离散集合 X：
p(x) = P(X = x), x ∈ X
熵表示单个随机变量的不确定性的均值，随机变量的熵越大，它的不确定性越大，也就是说，能正确估计其值的概率越小。熵的计算公式：
这里写图片描述
将负号移入对数公式内部：

上式实际上表达的是一个加权求值的概念，权重就是随机变量X的每个取值的概率。

用E表示数学期望。如果X~p(x)，则随机变量g(X)的期望值可表示为：
这里写图片描述

当这里写图片描述：

这里写图片描述
注：X的熵又解释为随机变量的期望值，其中p(x)是X的概率密度函数。

熵的属性

H(X) >= 0;
H(X) = 0, 当且仅当随机变量X的值是确定的，没有任何信息量可言；
熵值随着信息长度的增加而增加。

例子：世界杯足球赛冠军、中文书的信息量和冗余度。

信息的作用

信息的作用在于消除不确定性，自然语言处理的大量问题就是寻找相关信息。

不确定性U，信息I，新的不确定性: U’= U - I

如果没有信息，任何公式或者数字的游戏都无法排除不确定性。合理利用信息，而非玩弄什么公式和机器学习算法，是做好搜索的关键。

例子：网页搜索

联合熵和条件熵

如果(X,Y)是一对离散随机变量，其联合概率分布密度函数为p(x,y)，(X,Y)的联合熵H(X,Y)定义为：这里写图片描述

已知随机变量X的情况下随机变量Y的条件熵：
这里写图片描述
上式实际上表示的是在已知X的情况下，传输Y额外所需的平均信息量。

例子：自然语言的统计模型，一元模型就是通过某个词本身的概率分布，来消除不确定因素；而二元及更高阶的语言模型还是用了上下文的信息，那就能准确预测一个句子中当前的词汇了。

熵的链式法则：
这里写图片描述

互信息

根据熵的链式法则，我们有如下的计算公式：
H(X,Y) = H(X) + H(Y|X) = H(Y) + H(X|Y)
所以有：
H(X) - H(X|Y) = H(Y) - H(Y|X)
这个差值称为随机变量X和Y之间的互信息（mutual information）,用I(X;Y)表示。
这里写图片描述