信息增益相关介绍（熵、信息增益、特征）

来源：互联网发布：如何用vb编写上位机编辑：程序博客网时间：2024/05/22 04:44

对于取值多的属性，尤其一些连续型数值，比如两条地理数据的距离属性，这个单独的属性就可以划分所有的样本，使得所有分支下的样本集合都是“纯的”（最极端的情况是每个叶子节点只有一个样本）。

一个属性的信息增益越大，表明属性对样本的熵减少的能力更强，这个属性使得数据由不确定性变成确定性的能力越强。
所以如果是取值更多的属性，更容易使得数据更“纯”（尤其是连续型数值），其信息增益更大，决策树会首先挑选这个属性作为树的顶点。结果训练出来的形状是一棵庞大且深度很浅的树，这样的划分是极为不合理的。

C4.5使用了信息增益率，在信息增益的基础上除了一项split information,来惩罚值更多的属性。

熵：表示随机变量的不确定性。

条件熵：在一个条件下，随机变量的不确定性。

信息增益：熵 - 条件熵

在一个条件下，信息不确定性减少的程度！

通俗地讲，X(明天下雨)是一个随机变量，X的熵可以算出来， Y(明天阴天)也是随机变量，在阴天情况下下雨的信息熵我们如果也知道的话（此处需要知道其联合概率分布或是通过数据估计）即是条件熵。

两者相减就是信息增益！原来明天下雨例如信息熵是2，条件熵是0.01（因为如果是阴天就下雨的概率很大，信息就少了），这样相减后为1.99，在获得阴天这个信息后，下雨信息不确定性减少了1.99！是很多的！所以信息增益大！也就是说，阴天这个信息对下雨来说是很重要的！

所以在特征选择的时候常常用信息增益，如果IG（信息增益大）的话那么这个特征对于分类来说很关键~~ 决策树就是这样来找特征的！

决策树的本质是找到数据与类别的关系，也就是说我们希望给定一些数据，通过这种关系可以确定每条数据的类别，并且显然这种关系越确定学好，而这种确定性的增加意味着我们希望随机性尽可能的减小。建立决策树的过程是每次选择一个特征对数据进行划分，这相当于给数据提供了已知信息，这个过程一定会使数据的不确定性减小，且不确定性减小的越多代表这次划分越有效，而这里面不确定性的减小程度就是用信息增益来度量的。

设计分类系统的时候，一个很重要的环节便是特征选择，面对成千上万上百万的特征，如何选取有利于分类的特征呢？信息增益(Information Gain)法就是其中一种简单高效的做法。本文首先介绍理解信息增益(Information Gain)需要的基本概念，之后介绍如何将其运用在特征选择中，最后以stanford-nlp中利用信息增益法实现特征选择的例子结束本文。

熵(Entropy)

介绍信息增益大法前，不得不提的一个概念就是熵。熵是信息论中一个很重要的概念，我们先看看它的长相：

H (X) = - \sum x p (x) l o g p (x)

不得不承认，熵长得挺恶心的，从表达式中完全看不出半点端倪，根本不知道它有何作用。别急，我们慢慢研究，希望最后可以得到一个直观理解。

如何量化信息

平时我们会这样说”这句话信息量好大”，我们通常所指的信息是指那句话里的语义，而这里我们谈的信息则是信息论鼻祖Shannon定义的，Shannon老爷子认为消息传递的过程是这样的：消息首先被编码器编码之后经过一定的通道再经过解码器解码，最后信息传递给目标。那么目标者能获得多少原来的信息则是我们这里所谈的信息，这样的信息可能是一堆废话，完全没”信息量”。
我们知道信息在传递的时候有很多不确定因素，而量化不确定因素的一个利器就是概率论，那么在概率框架下的信息的定义是这样的：对于一个事件i，它发生的概率是pi，那么当观察到该事件的时候，我们到底获得多少信息呢？Shannon老爷子是这样定义信息函数的：

I (p) = - l o g (p)

,并规定底可以取大于1的任意数，通常可以取

2,e,10等。为什么要以对数来定义呢？在老爷子自己的开山大作《A Mathematical Theory of Communication》中给了三个理由：

第一，这样定义在实际中非常有用(不管黑猫白猫理论)，工程的重要参数随数据概率的对数而线性改变。如时间、带宽、继电器数，等等。
第二，对数更接近我们本身的直观感受，我们是线性直观地测量实体对象，例如两张穿孔卡片比一张具有有两倍信息贮存量。
第三，以对数定义信息在数学上可以得到极大便利。

信息函数的性质

我们参考一下维基百科看看这样定义的性质有什么：

I (p) > = 0...... (1) I (1) = 0...... (2) I (p 1, p 2) = I (p 1) + I (p 2) . . . . . . (3)

(1)式讲的是信息是非负的，我们最坏情况是得不到信息。(2)式表面必然发生的事情是不含信息量的，如果我们被告知地球是球状的，我们不会获得什么直接信息吧(除了觉得那个人有毛病)。(3)式则是说对于两个独立事件发生产生的信息量等于我们各自观察每个事件所获得的信息量。看，这样定义信息其实也挺符合我们对信息的通常理解。
那么回过头来看看我们的老朋友熵：

H (X) = - \sum x p (x) l o g p (x) = \sum x p (x) I (x)

那么熵可以看成是观察事件

X发生后我们获得的期望信息量，如果

H(x)越大，那么说明我们获得的信息量越大，同时也说明

X更趋向于均匀分布，由上面(2)式可知，信息量大不大反应于我们对事件发生可预知的概率大不大，如果我们知道事件肯定发生或者肯定不发生，我们得到的信息量是0，而越是对事件越不确定，越能够从这样的事件获得信息。那么当事件发生的概率是0.5的时候，我们获得最大的熵。再看一个常见的例子，假如我们在抛一枚硬币的事件是

X，我们看看

H(X)与看到正面的事件的概率

Pr(X=1)所构成的图像是怎样的：

https://en.wikipedia.org/wiki/Entropy_(information_theory)#/media/File:Binary_entropy_plot.svg

从图像中我们可以知道，当

Pr(X=1)=0.5的时候，

H(X)达到峰值。因此我们可以这样直观地理解熵：熵是用来衡量事件可预知性，熵越大，事件发生的概率越随机。

条件熵(Conditional Entropy)

我们的目的是特征选择，那么现在假设我们在做一个垃圾分类器，首先我们从训练数据X={x1,x2,...,xn}中抽取特征，将每个输入xi映射到特征空间Fi={f1,f2,...,fm}，然后通过我们熟悉的机器学习算法比如SVM,NaiveBayes,LogisticRegression等等，从训练数据中获得这样的模型：

f (F) = C

C=1代表输入是垃圾，

C=0代表是输入非垃圾。很不幸，通常

m将会很大，几万或几百万，这样不仅导致冗长的训练时间，甚至导致严重的Overfitting。那么我们便希望通过某种方法，将

m变小，降低到几千或者几百。接下来进入我们的尝试阶段。

定义

我们先来看看这小节的主角的形象：

H (X | Z) = - \sum z p (z) \sum x p (x | z) l o g (p (x | z)) = - \sum x \sum z p (z) p (x | z) l o g (p (x | z)) = - \sum x \sum z p (x, z) l o g p ( x , z ) p ( z ) = \sum x \sum z p (x, z) l o g p ( z ) p ( x , z )

性质

好吧，看容貌，条件熵更加平易远人，我们知道熵是非负的，那么上面那一坨定义是否也是非负呢？利用Jensen不等式我们可以检验：

H (X | Z) = \sum x \sum z p (x, z) l o g p ( z ) p ( x , z ) \geq l o g \sum x \sum z p (x, z) p ( z ) p ( x , z ) = l o g \sum z p (z) = 0

那么我们的定义应该没有问题。我们再来看看它和单独的

H(X)有什么关系，我们可以检验一下

H(X)−H(X|Z)的正负性，经过类似上面的推导，我们知道：

H (X) \geq H (X | Z)

也就是

H(X)是

H(X|Z)的上界(upbound)。

现在先不管复杂的表达式，我们试之从直觉上理解。上一节我们了解到熵是衡量事件发生的可预知性，那么条件熵我们可以这样理解，事件Z发生了对于我们知道事件X有什么贡献。当事件Z发生了但是完全没贡献时候，当前仅当H(X)=H(X|Z)，此时事件X与事件Z相互独立，否则，只要H(X|Z)≥0，事件Z就对我们预知事件X有贡献，因为H(X|Z)≤H(X)的，Z的出现导致熵变小了，我们对事件X的预知能力变强了。

尝试利用条件熵做特征选择

那么对于分类器而言，我们想知道某个特征对于分类这样的事件到底有多大贡献，然后对贡献太小的特征就舍弃，从而达到特征选择地效果。现在我们就进行尝试，假设我们有一个事件F，f1＝1代表在我们拥有f2,f3,...,fm的情况下，再包含特征f1的事件，f1=0则表明不包含特征f1的事件。那么我们想知道f1,f2对于我们识别垃圾到底哪个贡献大，我们可以比较H(C=1|f1),H(C=1|f2)看看哪个更小，熵小的特征说明对于识别信息为垃圾的事件贡献更大。于是我们计算所有特征都的H(C=1|fi)，按照从小到大排序，取前K个特征，太棒了，貌似我们解决了特征选择问题了。但是我们再仔细思考一下，上面的做法只是筛选出了对于识别是垃圾这种类别有用的特征，但是可能刷掉了对于识别非垃圾事件有用的特征，怎么办呢？我们可不可以比较一下H(C=1|f1)，H(C=0|f1)的大小从而决定该特征是对识别为垃圾的事件贡献大还是对识别为非垃圾的贡献大呢？答案是否定的，因为两者不具备可比性，为什么呢？因为两者具有不同的上界，不在同一标准，所以不具备可比性。那该怎么办呢？

信息增益(Information Gain)

上一节我们一开始以为找到了特征选择的办法，后来发现是不可行的，这一次，我们的主角将为我们解决难题。

定义

老套路，我们还是先看看老兄的形象：

I G (X, Z) = H (X) - H (X | Z) = H (Z) - H (Z | X)

有了前两节的基础，老兄并不那么面目可憎，反而有点熟悉，似曾相识。没错，你没有认错，上一节中我们为了证明

H(X)是

H(X|Z)上界，就已经出现上述所示。这次我们并不是要证明什么上界下界，我们直接对其差值进行定义，并取名字为信息增益(Information Gain)。

性质

我们照常来看看信息增益的一些性质。首先从定义可以很容易知道它符合交换律，也就是

I G (X, Z) = I G (Z, X)

，其次信息增益具有非负性

I G (X, Z) \geq 0

当且仅当

X,Z相互独立的时候等号取得成立。我们可以这样直观地理解信息增益的含义：观察到事件

Z对于我们预知

X提供了多少信息，或者观察到事件

X对于我们预知

Z提供了多少信息。通过定义我们可以很容易验证两种描述都是正确的。因此我们称之为信息增益，观察到一个事件，另一个事件获得了多少信息。我们类比一下高中学过的重力势能，不同高度的重力势能是不同的，但是对于相同的高度差，重力势能的差值却是相同的。
由于两个事件相互的信息增益是相同的，所以信息增益也叫相互信息(Mutual Information)。对于定义，我们可以展开重写一下：

I G (X, Z) = H (X) - H (X | Z) = - \sum x p (x) l o g p (x) + \sum z \sum x p (x, z) l o g p ( x , z ) p ( z ) = - \sum x \sum z p (x, z) l o g p (x) + \sum z \sum x p (x, z) l o g p ( x , z ) p ( z ) = \sum z \sum x p (x, z) l o g p ( x , z ) p ( z ) p ( x ) = K L (p (x, z) | | p (x) p (z))

突然出现一个新人物，Kullback-Leibler Divergence，对于

KL(p||q)，可以近似认为他是衡量分布p与q的距离，当两个分布相同的时候，KL散度为0，越是不同，KL散度越大。所以信息增益又被称为Information Divergence。我们可以理解为它是衡量联合分布

p(x,z)与假设他们

X,Z相互独立时的联合分布

p(x)p(z)之间的散度。

利用信息增益做特征选择

上一节中，我们说过H(C=1|f1),H(C=0|f2)不具备可比性，因为他们具有不同的上界H(C=1),H(C=0)，从而阻止我们利用条件熵来做特征选择，这次我们利用信息增益再看看会不会有相同问题。我们看

I G (C = 1, f 1) 与 I G (C = 0, f 1)

是否具有可比性，由于两者都是算当包含或不包含特征

f1的时候，为识别为垃圾的事件带来多少信息，为识别为非垃圾带来多少信息，那么我们可以直接用

I G (C, f 1)

来衡量特征当包含或不包含

f1的时候，为分类器的识别提供了多少信息量，同理可以利用

I G (C, f 2)

来衡量包含或不包含特征

f2为分类器提供了多少信息量，依次类推，我们分别求出每个特征对分类器提供的信息量，然后从大到小进行排序，取前

K个特征，我们就达到利用信息增益做特征选择的目的！

信息增益法在stanford-nlp的应用

前面讲了那么多理论，该是大显身手的时候了。我们再回过头来看如何求取分类与特征之间的信息增益。首先观察定义：

I G (C, f i) = H (C) - H (C | f i) = - \sum c \in {0, 1} p (c) l o g p (c) + \sum f i \in {0, 1} p (f i) \sum c \in {0, 1} p (c | f i) l o g p (c | f i)

，我们知道计算信息增益分为两部分，一部分是计算类别

C的熵

H(C)，另一部分是计算在事件

fi下的条件熵

H(C|fi)，计算熵的时候，涉及到概率计算，我们通常都是采用极大似然法来估计概率，各个概率的估计如下：

假设我们的训练样本数是N

p (C = 0) = c o u n t ( c = 0 ) N p (C = 1) = 1 - p (C = 0)

对于

p(fi)和p(c|fi)的估计，stanford-nlp中首先是对每个训练样本进行统计，对于每个特征

fi在训练样本

x中只要出现过就加一次，出现两次也算一次。这样计数下来就可以统计到每个特征的featureCount。那么接下来的估计如下：

p (f i = 1) = c o u n t ( f i = 1 ) N p (f i = 0) = 1 - p (f i) p (C = 0 | f i = 1) = c o u n t ( C = 0 , f i = 1 ) c o u n t ( f i = 1 ) p (C = 1 | f i = 1) = c o u n t ( C = 1 , f i = 1 ) c o u n t ( f i = 1 ) p (C = 0 | f i = 0) = c o u n t ( C = 0 , f i = 0 ) c o u n t ( f i = 0 ) p (C = 1 | f i = 0) = c o u n t ( C = 1 , f i = 0 ) c o u n t ( f i = 0 )

且看Dataset里面的一段代码：

  public double[] getInformationGains() {    labels = trimToSize(labels);    ClassicCounter<F> featureCounter = new ClassicCounter<F>();    ClassicCounter<L> labelCounter = new ClassicCounter<L>();    TwoDimensionalCounter<F,L> condCounter = new TwoDimensionalCounter<F,L>();    for (int i = 0; i < labels.length; i++) {      labelCounter.incrementCount(labelIndex.get(labels[i]));      boolean[] doc = new boolean[featureIndex.size()];      for (int j = 0; j < data[i].length; j++) {        doc[data[i][j]] = true;//标识一下特征是否出现过      }      for (int j = 0; j < doc.length; j++) {        if (doc[j]) {//统计count(fi)和count(c|fi)          featureCounter.incrementCount(featureIndex.get(j));          condCounter.incrementCount(featureIndex.get(j), labelIndex.get(labels[i]), 1.0);        }      }    }    double entropy = 0.0;//计算H(C)    for (int i = 0; i < labelIndex.size(); i++) {      double labelCount = labelCounter.getCount(labelIndex.get(i));      double p = labelCount / size();      entropy -= p * (Math.log(p) / Math.log(2));    }    double[] ig = new double[featureIndex.size()];    Arrays.fill(ig, entropy);    //计算H(C|fi)    for (int i = 0; i < featureIndex.size(); i++) {      F feature = featureIndex.get(i);      double featureCount = featureCounter.getCount(feature);//count(fi=1)      double notFeatureCount = size() - featureCount;//count(fi=0)      double pFeature =  featureCount / size();//p(fi=1)      double pNotFeature = (1.0 - pFeature);//p(fi=0)      if (featureCount == 0) { ig[i] = 0; continue; }      if (notFeatureCount == 0) { ig[i] = 0; continue; }      double sumFeature = 0.0;      double sumNotFeature = 0.0;      for (int j = 0; j < labelIndex.size(); j++) {        L label = labelIndex.get(j);        double featureLabelCount = condCounter.getCount(feature, label);//count(c,fi=1)        double notFeatureLabelCount = size() - featureLabelCount;//count(c,fi=0)        double p = featureLabelCount / featureCount;//p(c|fi=1)        double pNot = notFeatureLabelCount / notFeatureCount;//p(c|fi=0)        if (featureLabelCount != 0) {          sumFeature += p * (Math.log(p) / Math.log(2));        }        if (notFeatureLabelCount != 0) {          sumNotFeature += pNot * (Math.log(pNot) / Math.log(2));        }      }    ig[i] += pFeature*sumFeature + pNotFeature*sumNotFeature;//最后H(C)+H(C|F)         return ig;  }

对于每个特征计算信息增益后，进行排序，然后就可以愉快地取前K个特征了！

阅读全文

0 0