信息增益(互信息)非负性证明
来源:互联网 发布:天猫不能用淘宝助理 编辑:程序博客网 时间:2024/05/29 04:49
信息增益又称互信息,它是信息论的基本概念之一。同时,它在当今流行的人工智能领域也多有涉及。其中,著名的决策树算法IC3就是以信息增益作为贪心选择的依据。
信息增益的定义如下:
从上面的等式,可以看出信息增益具有对称性。其中X和Y分别为两个信息量。信息增益表示这两个信息量相关程度的测度。通俗点解释就是,在知道Y这个信息量之后信息量X的不确定性相比于不知道信息量Y时,X的不确定性减少了多少(对于上述第一行的式子)。
接下来,我们来根据信息增益的含义进一步分析。一般而言,在知道信息量Y后,信息量X会更加确定,说明信息量X和信息量Y是有一定的相关性的。比如,一觉醒来看到外面地面湿湿的(知道Y),那么昨晚上下雨(X)的可能性就大大提高了。相对的,假如X和Y是无关的,那么知道Y就不能够对X的确定性有任何影响。另外,我们都应该知道一个事实,人们对已有的事实了解得越多,那么人们就应该对未知的事物把握程度越大。通过上述分析,从直觉上应该可以得出两条结论:
1、满足非负性,即它永远不小于0;
2、当事件X和Y相互独立时,等于0。
通过分析,我们得出的这两个结论似乎很简单而且符合常识。然而,对于这样明显的“常识”,假如你想回到上述定义式子证明这两个结论(尤其是非负性),你会发现这是极其困难的一件事。最初,我是在去年学IC3决策树算法时候遇到了这个问题。当时在理解了信息增益的物理意义之后,很快就得出了上述两条结论。然而,我并没有进一步深究上述结论的得出过程。而再一次遇到这个问题是今年六月份的一份智能技术复习题目(原题:请证明信息增益大于或等于0。)上,当时考虑了很久,都没有解出这一题,很快我就发现了这是一道很神级的证明题,之后在思考一小段时间后果断放弃。最近在翻阅一些书籍的时候,我偶然看到了很信息论有关的资料,再一次回想起了这一题。我在其中找了下,果然有这一道题的证明过程。于是,我就把这些证明过程整理一下,校正了书中证明过程中的错误,补充了些不全之处,写成这篇博客。
具体证明过程如下:
首先,我们来看证明过程所用到的一个定理。
琴声(Jensen)不等式:假如函数为凸函数,而为关于x的任意函数,。琴声不等式表明下列式子成立:
同时,另一个需要涉及的概念为KL散度(Kullback–Leibler divergence)。定义为:。其中分别表示x的概率或概率密度。
将进一步推导如下:
由此可见,信息增益对应于一个KL散度公式。因此,只要证明了KL散度公式的非负性,自然就证明了信息增益的非负性。
(将看成,对应成,同时)
上述过程证明了,因此,证明了的非负性(结论一)。而对于琴生不等式,等于成立的条件时恒等于某个定值c。所以当时,。由于和均为概率密度函数所以成立的条件是。而该条件也就意味着变量X和Y是相互独立的(结论二)。
- 信息增益(互信息)非负性证明
- 信息增益(互信息)非负性证明
- 浅析互信息(信息增益)
- 信息增益与互信息
- 熵 信息增益 相对熵(KL散度) 互信息
- 【机器学习】信息量,信息熵,交叉熵,KL散度和互信息(信息增益)
- 互信息和信息熵
- 信息增益相关介绍(熵、信息增益、特征)
- 信息增益(information gain)
- 信息增益
- 信息增益
- 信息增益
- 信息增益
- 互信息(R)
- 决策树(信息增益)的java实现
- 算法仓库(一) 什么是信息增益
- 自信息, 信息熵, 互信息和K-L散度
- 信息增益,信息增益率,Gini
- 走进AngularJs之过滤器(filter)
- Intervals (poj 3680 离散化+最小费用最大流)
- 《剑指offer》复杂链表的复制
- 网上精华资源整理合集(补充中.........)
- Linux同步机制(一) - 线程锁
- 信息增益(互信息)非负性证明
- java实现4个线程对一个公共变量修改
- Java反射机制Class类的用法详解
- UIWebView加载网页、html、本地文件、二进制方式加载本地文件
- Android Fragment 笔记
- poj 2157 Maze 枚举排列+dfs搜迷宫
- Lucene--TokenStream(TokenFilter、Tokenizer)
- 经典书籍_java学习基础编程篇
- 归并排序