信息熵

来源:互联网 发布:金融网络销售好做吗 编辑:程序博客网 时间:2024/05/16 18:20

以下内容为读《数学之美》信息论部分的学习笔记。

熵:

信息熵就是随机量包含信息的大小,其公式为:

,x取所有值。

由公式可以看出熵的大小与随机量x的概率有关,当X有两种可能的取值,并且其概率都是1/2的话,那么X的熵就是1bit。

熵与随机变量的不确定性有关,不确定性越大,熵越大。当X所有可能出现的情况概率相等时,X的熵最大(不确定性最大)。

条件熵:

与条件概率的含义相似,就是说当另外一个随机量Y出现的情况下,X的熵是多大,其公式为:


可以证明,也就是说当知道Y出现的情况下,X的熵会变小,也就是X包含的信息量小了,也就是X的不确定性小了。当Y与X无关时,取等号。

互信息:

假设有X和Y两个随机事件,则互信息的定义为:


可以看出互信息指的是在已知Y的情况下,X损失的信息。XY完全相关,损失信息为1,XY完全无关,损失信息为0。可以通过该方法一定程度上确定两个随机事件的相关性。

相对熵或交叉熵:

相对熵也是用来计算相关性的,但它衡量的是取值为正数的两个函数的相关性,其定义为:


可以看出KLD与互信息的形式是有些相似的,它有以下几点性质:

1.对于两个完全相同的函数,其相对熵为零。

2.相对熵反应两个函数的差异,差异越大,相对熵越大;差异越小,相对熵越小。

3.如果概率密度函数的取值均大于零,相对熵可以度量两个随机分布的差异。

第三个性质比较有用,比如已知两个词在不同文本中的分布,那么可以用相对熵来确定这两个词是否同义。根据两篇文章中不同词的分布来确定这两篇文章的内容是否相近等。

0 0
原创粉丝点击