我们为什么需要信息增益比,而不是信息增益?
来源:互联网 发布:java密码加密算法 编辑:程序博客网 时间:2024/06/05 18:02
我们为什么需要信息增益比,而不是信息增益?
表一 满足什么情况才去玩高尔夫 [1]
决策树是机器学习中的经典算法,分别由三个经典算法实现:
对于
讨论之前先来几个公式压压惊。
在信息论与概率统计中,熵(entropy)是表示随机变量不确定性的度量[2]。设X的概率分布为
则随机变量
其实公式看起来挺吓人的,但是计算的时候很简单。拿表一作为计算的例子,假设
条件熵定义为
条件熵在这里指的就是特征
所以
得到了熵和条件熵,那么信息增益就好求了,公式如下
所以,
本来
还是以表一为例,假如我们想用Day来做为特征(当然实际上一般人也不会傻到用Day用做特征),显然,每一天都可以将样本分开,也就是形成了一颗叶子数量为14,深度只有两层的树。这种样本分隔的结果就是计算出来的
那么导致这样的偏差的原因是什么呢?从上面的例子应该能够感受出来,原因就是该特征可以选取的值过多。解决办法自然就想到了如何能够对树分支过多的情况进行惩罚,这样就引入了下面的公式,属性
这就是针对分支数目的惩罚项,
这样信息增益比公式就出来了:
总结上面的公式,计算得到下表:
然而。。。最终还是
不过虽然这样,信息增益率还是要比信息增益可靠的多的!另外也可以看出,对特征的筛选也是非常重要的步骤,可以减少信息增益率失效的几率。
[1] http://www.ke.tu-darmstadt.de/lehre/archiv/ws0809/mldm/dt.pdf
[2] 李航. 统计学习方法.
- 我们为什么需要信息增益比,而不是信息增益?
- 熵、信息增益、信息增益比
- 信息增益(比)的算法
- 机器学习-信息增益和信息增益比-笔记
- 决策树--信息增益,信息增益比,Geni指数的理解
- 信息增益
- 信息增益
- 信息增益
- 信息增益
- 信息增益,信息增益率,Gini
- 熵,信息增益,信息增益率,Gini
- 信息增益,信息增益率,Gini
- 信息增益,信息增益率,Gini
- 信息增益 熵 信息增益率
- 信息增益,信息增益率,Gini
- 信息增益,信息增益率,Gini
- 信息增益,信息增益率,Gini
- 信息增益与信息增益率详解
- 如何让Java类不可变
- bat 压缩备份文件 xcopy mysqldump备份文件和数据库
- php中字符串的拼接
- cocoapod 64位报错
- Smarty
- 我们为什么需要信息增益比,而不是信息增益?
- 黑马程序员——Java基础——内部类
- XMPP常用方法摘要.
- UVa 11582 Colossal Fibonacci Numbers!
- transition详细笔记
- 3、Django、MySQL第一个模型
- 怎么避免在类实现的cpp文件中不要多次进行类声明
- Yii安装
- Error in deleting blocks.