信息增益(互信息)非负性证明

来源:互联网 发布:天猫不能用淘宝助理 编辑:程序博客网 时间:2024/05/29 04:49

        信息增益又称互信息,它是信息论的基本概念之一。同时,它在当今流行的人工智能领域也多有涉及。其中,著名的决策树算法IC3就是以信息增益作为贪心选择的依据。

        信息增益的定义如下:

                                     


                                                           


                                                  

        从上面的等式,可以看出信息增益具有对称性。其中X和Y分别为两个信息量。信息增益表示这两个信息量相关程度的测度。通俗点解释就是,在知道Y这个信息量之后信息量X的不确定性相比于不知道信息量Y时,X的不确定性减少了多少(对于上述第一行的式子)。

       接下来,我们来根据信息增益的含义进一步分析。一般而言,在知道信息量Y后,信息量X会更加确定,说明信息量X和信息量Y是有一定的相关性的。比如,一觉醒来看到外面地面湿湿的(知道Y),那么昨晚上下雨(X)的可能性就大大提高了。相对的,假如X和Y是无关的,那么知道Y就不能够对X的确定性有任何影响。另外,我们都应该知道一个事实,人们对已有的事实了解得越多,那么人们就应该对未知的事物把握程度越大。通过上述分析,从直觉上应该可以得出两条结论:

       1、满足非负性,即它永远不小于0;

       2、当事件X和Y相互独立时,等于0。

       通过分析,我们得出的这两个结论似乎很简单而且符合常识。然而,对于这样明显的“常识”,假如你想回到上述定义式子证明这两个结论(尤其是非负性),你会发现这是极其困难的一件事。最初,我是在去年学IC3决策树算法时候遇到了这个问题。当时在理解了信息增益的物理意义之后,很快就得出了上述两条结论。然而,我并没有进一步深究上述结论的得出过程。而再一次遇到这个问题是今年六月份的一份智能技术复习题目(原题:请证明信息增益大于或等于0。)上,当时考虑了很久,都没有解出这一题,很快我就发现了这是一道很神级的证明题,之后在思考一小段时间后果断放弃。最近在翻阅一些书籍的时候,我偶然看到了很信息论有关的资料,再一次回想起了这一题。我在其中找了下,果然有这一道题的证明过程。于是,我就把这些证明过程整理一下,校正了书中证明过程中的错误,补充了些不全之处,写成这篇博客。

       具体证明过程如下:


       首先,我们来看证明过程所用到的一个定理。

       琴声(Jensen)不等式:假如函数为凸函数,而为关于x的任意函数,。琴声不等式表明下列式子成立:


       同时,另一个需要涉及的概念为KL散度(Kullback–Leibler divergence)。定义为:。其中分别表示x的概率或概率密度。

       将进一步推导如下:

                  

       由此可见,信息增益对应于一个KL散度公式。因此,只要证明了KL散度公式的非负性,自然就证明了信息增益的非负性。

        

                      

                        (将看成对应成,同时

                      

                      

       上述过程证明了,因此,证明了的非负性(结论一)。而对于琴生不等式,等于成立的条件时恒等于某个定值c。所以当时,。由于均为概率密度函数所以成立的条件是。而该条件也就意味着变量X和Y是相互独立的(结论二)。

       


       


0 0
原创粉丝点击