信息熵

来源：互联网发布：局域网控制上网软件编辑：程序博客网时间：2024/05/02 01:46

有人说：“熵越大，信息量越小”

也有人说：“熵越大，信息量越大”

到底在香农的信息框架下，熵指的是什么？“信息量”指的又是什么呢？上面的两种说法哪种是对的呢？

给定一个随机变量X，它的熵定义为。。。

熵只是刻画系统或者变量不确定性的一个量，并不是刻画系统已有信息量的一个量 ，但是它与信息量是有关系的，什么关系呢？当我们谈论信息量的时候应该是指的一个具体的事物，即随机变量的一个具体取值时的状态，这个时候才能谈论信息量！ 那这个信息量是多少呢？即随机变量从原来不知道该取什么值的时候到现在已经知道具体取值所需要做的“功”，亦即消除这个不确定性所需要做的事情，应该是所求。

显然，这个值就等于变量的熵。

所以熵不代表随机变量的信息量，但是随机变量取某个具体值时具有信息量的值是等于熵的；
故而，熵和信息量是两个范畴的东西，只是因为相等，所以现实中经常混用而已，但却经常引起概念上的混淆；

所以，“熵越大，代表该随机变量取特定值的时候具有的信息量越大”。

举例：
一本五十万字的中文书平均有多少信息量？（例子来自于吴军，评论是我加的，评论用［］符号 ）
我们知道常用的汉字（一级二级国标）大约有 7000 字。假如每个字等概率，那么我们大约需要 13 个比特（即 13 位二进制数）表示一个汉字［这里把汉字作为一个随机变量，那么汉字系统的熵就是约13bit］ 。但汉字的使用是不平衡的。实际上，前 10% 的汉字占文本的 95% 以上。因此，即使不考虑上下文的相关性，而只考虑每个汉字的独立的概率，那么，每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性，每个汉字的信息熵［其实指的是汉字变量取特定汉字作为值时候具有的信息量］ 只有5比特左右。所以，一本五十万字的中文书，信息量大约是 250 万比特［这个时候的信息量就是每个汉字的信息量和数目相乘，指的都是汉字变量取具体值的信息量］ 。如果用一个好的算法压缩一下，整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书，大约需要 1MB 大小，是压缩文件的三倍。这两个数量的差距，在信息论中称作“冗余度”（redundancy)。需要指出的是我们这里讲的 250 万比特是个平均数，同样长度的书，所含的信息量可以差很多。如果一本书重复的内容很多，它的信息量就小，冗余度就大。