信息熵

来源:互联网 发布:mba书籍推荐知乎 编辑:程序博客网 时间:2024/05/22 07:06

原文地址

“熵”是信息的不确定性度量

“信息熵”是一个非常神奇的概念,它能够反映一个事件的结果平均会给你带来 多大的信息量。如果某个结果的发生概率为p,当你知道它确实发生了,你得到的信息量就被定义为-log(p)。p越小,你得到的信息量就越大。如果一颗骰 子的六个面分别是1、1、1、2、2、3,那么你知道了投掷的结果是1时可能并不会那么吃惊,它给你带来的信息量是-log(1/2),约为0.693。 知道投掷结果是2,给你带来的信息量则是-log(1/3)≈1.0986。知道投掷结果是3,给你带来的信息量则有-log(1/6)≈1.79。但你 只有1/2的机会得到0.693的信息量,只有1/3的机会得到1.0986的信息量,只有1/6的机会得到1.79的信息量,因而平均情况下你会得到 0.693/2+1.0986/3+1.79/6≈1.0114的信息量。这个1.0114就是那颗骰子的信息熵。现在,假如某颗骰子有100个面,其中 99个面都是1,只有一个面上写的2。知道骰子的抛掷结果是2会给你带来一个巨大无比的信息量,它等于-log(1/100),约为4.605;但你只有 1%的概率获取到这么大的信息量,其他情况下你只能得到-log(99/100)≈0.01005的信息量。平均情况下,你只能获得0.056的信息量, 这就是这颗骰子的信息熵。再考虑一个最极端的情况:如果一颗骰子的六个面都是1,投掷它不会给你带来任何信息,它的信息熵为-log(1)=0。什么时候 信息熵会更大呢?换句话说,发生了怎样的事件之后,你最想问一下它的结果如何?直觉上看,当然就是那些结果最不确定的事件。没错,信息熵直观地反映了一个 事件的结果有多么的随机。

1 0