[机器学习]信息熵、信息增益的概念

来源:互联网 发布:js === 编辑:程序博客网 时间:2024/05/22 10:37

信息熵

信息熵 表示 随机变量 的 不确定性

不确定性越大(即所谓的信息量越大),信息熵越大。

信息可不可以量化?

首先从直觉上来讲,是可以的。不然我们怎么觉得有的人废话特别多,却没什么信息量;而有的人一语中的,一句话就传达了很大的信息量。

为什么有的信息大,有的信息小?

有些事情本来不是很确定:例如 明天股票是涨是跌;

1)“明天NBA决赛开始了“,和“股票跌涨“没关系,所以“明天NBA决赛开始了“对“股票跌涨“带来的信息量很小。
2)但是 “明天NBA决赛开始了“,“大家都不关注股票了,没人坐庄有99%的股都会下跌“,这句话对“对票跌涨“带来的信息量很大。因为它使本来不确定的事情变得十分确定

而有些事情本来就很确定:例如每天太阳从东方升起;

你再告诉我一百遍,这句话还是没有信息量的。
因为这件事情不能更确定了

所以说信息量的大小跟事情的不确定性有关。

那么,不确定性的变化跟什么有关呢?

1. 跟事情的可能结果的数量有关

例如我们讨论太阳从哪升起。本来就只有一个结果,我们早就知道,那么无论谁传递任何信息都是没有信息量的。
当可能结果数量比较大时,我们得到的新信息才有潜力拥有大信息量。

2. 跟概率有关。

单看可能结果数量不够,还要看初始的概率分布。例如一开始我就知道小明在电影院的有15*15个座位的A厅看电影。小明可以坐的位置有225个,可能结果数量算多了。可是假如我们一开始就知道小明坐在第一排的最左边的可能是99%,坐其它位置的可能性微乎其微,那么在大多数情况下,你再告诉我小明的什么信息也没有多大用,因为我们几乎确定小明坐第一排的最左边了。

那么,怎么衡量不确定性的变化的大小呢?怎么定义呢?
这个问题不好回答,但是假设我们已经知道这个量已经存在了,不妨就叫做信息量

那么你觉得信息量起码该满足些什么特点呢?

一,起码 不是个负数 吧

不然说句话还偷走信息呢~

二,起码 信息量 和 信息量 之间可以 相加 吧!

假如你告诉我的第一句话的信息量是3,在第一句话的基础上又告诉我一句话,额外信息量是4,那么两句话信息量加起来应该等于7吧!难道还能是5是9?

三,信息量是连续依赖于概率

刚刚已经提过,信息量跟概率有关系,但我们应该会觉得,信息量是连续依赖于概率的吧!
就是说,某一个概率变化了0.0000001,那么这个信息量不应该变化很大。

四,新信息有更大的潜力具有更大的信息量

刚刚也提过,信息量大小跟可能结果数量有关。假如每一个可能的结果出现的概率一样,那么对于可能结果数量多的那个事件,新信息有更大的潜力具有更大的信息量,因为初始状态下不确定性更大。

那有什么函数能满足上面四个条件呢?

负的对数函数,也就是-log(x)!
底数取大于1的数保证这个函数是非负的就行。前面再随便乘个正常数也行。
a. 为什么不是正的?因为假如是正的,由于x是小于等于1的数,log(x)就小于等于0了。第一个特点满足。
b. 咱们再来验证一下其他特点。三是最容易的。假如x是一个概率,那么log(x)是连续依赖于x的。done
c。四呢?假如有n个可能结果,那么出现任意一个的概率是1/n,而-log(1/n)是n的增函数,没问题。
d。最后验证二。由于-log(xy) = -log(x) -log(y),所以也是对的。学数学的同学注意,这里的y可以是给定x的条件概率,当然也可以独立于x。

By the way,这个函数是唯一的(除了还可以多乘上任意一个常数),有时间可以自己证明一下,或者查书。

ok,所以我们知道一个事件的信息量就是这个事件发生的概率的负对数。

最后终于能回到信息熵。信息熵是跟所有可能性有关系的。每个可能事件的发生都有个概率。信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上,信息熵其实是信息量的期望。(表达式参考其它答案或者看下面)

至于为什么用“熵”这个怪字?大概是当时翻译的人觉得这个量跟热力学的熵有关系,所以就用了这个字,君不见字里头的火字旁?

而热力学为什么用这个字?这个真心不知道。。。

信息增益

熵:表示随机变量的不确定性。

条件熵:在一个条件下,随机变量的不确定性。

信息增益:熵 - 条件熵

在一个条件下,信息不确定性减少的程度!

通俗地讲,X(明天下雨)是一个随机变量,X的熵可以算出来, Y(明天阴天)也是随机变量,在阴天情况下下雨的信息熵我们如果也知道的话(此处需要知道其联合概率分布或是通过数据估计)即是条件熵。

两者相减就是信息增益!原来明天下雨例如信息熵是2,条件熵是0.01(因为如果是阴天就下雨的概率很大,信息就少了),这样相减后为1.99,在获得阴天这个信息后,下雨信息不确定性减少了1.99!是很多的!所以信息增益大!也就是说,阴天这个信息对下雨来说是很重要的!

所以在特征选择的时候常常用信息增益,如果IG(信息增益大)的话那么这个特征对于分类来说很关键~~ 决策树就是这样来找特征的!

参考

感谢知乎的朋友[滴水]、[Kay Zhou]

参考链接
https://www.zhihu.com/question/22178202/answer/49929786
https://www.zhihu.com/question/22104055

0 0
原创粉丝点击