学习笔记9.25

来源：互联网发布：如何用微信付款淘宝编辑：程序博客网时间：2024/05/23 19:20

信息增益

参考周志华老师的机器学习这本书，学习了信息增益的内容：

“信息熵”是度量样本集合纯度最常用的一种指标。假设当前样本集合中第k类样本所占的比例为pk(k=1,2,...,|y|),则D的信息熵定义为

E n t (D) = - \sum k = 1 | y | p k l o g 2 p k

Ent(D)的值越小，则

D的纯度越高。
假定离散属性

a有

V个可能的取值

{a1,a2,...,aV},若使用

a来对样本集

D进行划分，则会产生

V个分支节点，其中第

v个分支节点包含了

D中所有在属性

a上取值为

av的样本，记为

Dv. 计算出

Dv的信息熵，考虑到不同的分支节点包含的样本数不同，给分支节点赋予权重

|Da||D|即样本数越多的分支节点的影响越大，于是课计算出用属性

a对样本集

D进行划分所获得的“信息增益”

G a i n (D, a) = E n t (D) - \sum v = 1 V | D v | | D | E n t (D v)

一般而言，信息增益越大，则意味着使用属性

a来进行划分所获得的纯度提升。

互信息

根据维基百科的定义：一般地，两个离散随机变量X 和Y的互信息可以定义为：

I (X; Y) = \sum y \in Y \sum x \in X p (x, y) l o g (p ( x , y ) p ( x ) p { y })

p(x,y)是

Y的联合概率分布函数，

p(x)，

p(y)分别是

Y的边缘概率密度。
在连续随机变量的情形下，求二重积分

I (X; Y) = \int Y \int X p (x, y) l o g (p ( x , ) p ( x ) p ( y )) d x d y

直观上，互信息度量 X 和 Y 共享的信息：它度量知道这两个变量其中一个，对另一个不确定度减少的程度。例如，如果 X 和 Y 相互独立，则知道 X 不对 Y 提供任何信息，反之亦然，所以它们的互信息为零。在另一个极端，如果 X 是 Y 的一个确定性函数，且 Y 也是 X 的一个确定性函数，那么传递的所有信息被 X 和 Y 共享：知道 X 决定 Y 的值，反之亦然。因此，在此情形互信息与 Y（或 X）单独包含的不确定度相同，称作 Y（或 X）的熵。而且，这个互信息与 X 的熵和 Y 的熵相同。（这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。）

阅读全文

0 0