学习笔记9.25

来源:互联网 发布:如何用微信付款淘宝 编辑:程序博客网 时间:2024/05/23 19:20

信息增益

参考周志华老师的机器学习这本书,学习了信息增益的内容:

“信息熵”是度量样本集合纯度最常用的一种指标。假设当前样本集合中第k类样本所占的比例为pk(k=1,2,...,|y|),则D的信息熵定义为

Ent(D)=k=1|y|pklog2pk

Ent(D)的值越小,则D的纯度越高。
假定离散属性aV个可能的取值{a1,a2,...,aV},若使用a来对样本集D进行划分,则会产生V个分支节点,其中第v个分支节点包含了D中所有在属性a上取值为av的样本,记为Dv. 计算出Dv的信息熵,考虑到不同的分支节点包含的样本数不同,给分支节点赋予权重|Da||D|即样本数越多的分支节点的影响越大,于是课计算出用属性a对样本集D进行划分所获得的“信息增益”
Gain(D,a)=Ent(D)v=1V|Dv||D|Ent(Dv)

一般而言,信息增益越大,则意味着使用属性a来进行划分所获得的纯度提升。

互信息

根据维基百科的定义:一般地,两个离散随机变量XY的互信息可以定义为:

I(X;Y)=yYxXp(x,y)log(p(x,y)p(x)p{y})

p(x,y)X,Y的联合概率分布函数,p(x)p(y)分别是X,Y的边缘概率密度。
在连续随机变量的情形下,求二重积分
I(X;Y)=YXp(x,y)log(p(x,)p(x)p(y))dxdy

直观上,互信息度量 X 和 Y 共享的信息:它度量知道这两个变量其中一个,对另一个不确定度减少的程度。例如,如果 X 和 Y 相互独立,则知道 X 不对 Y 提供任何信息,反之亦然,所以它们的互信息为零。在另一个极端,如果 X 是 Y 的一个确定性函数,且 Y 也是 X 的一个确定性函数,那么传递的所有信息被 X 和 Y 共享:知道 X 决定 Y 的值,反之亦然。因此,在此情形互信息与 Y(或 X)单独包含的不确定度相同,称作 Y(或 X)的熵。而且,这个互信息与 X 的熵和 Y 的熵相同。(这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。)

原创粉丝点击