决策树的相关概念
来源:互联网 发布:网络奇谈恐惧鸟电子版 编辑:程序博客网 时间:2024/05/19 03:45
(1)熵
在信息论与概率统计中,熵是表示随机变量不确定性的度量。设X是一个取有限个值得离散随机变量,其概率分布为:
则随机变量X的熵定义为
由上式可知,熵只依赖于X的分布,而与X的取值无关,所以也可以将X的熵记作H(p)。
设有随机变量(X,Y),其联合概率分布为
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X),定义为X的给定条件下Y的条件概率分布的熵对X的数学期望
其中,。
信息增益表示得知特征X的信息而使得Y的信息的不确定性减少的程度。
(2)定义信息增益
特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即
注意:对于信息数据集D而言,信息增益依赖于特征,不同的特征往往具有不同的信息增益,信息增益大的特征具有更强的分类能力。
信息增益算法算法
输入:训练数据集D和特征A;
输出:特征A对训练数据集D的信息增益g(D,A)。
(1). 计算数据集D的经验熵H(D)
(2). 计算特征A对数据集D的经验条件熵H(D|A)
(3). 计算信息增益
(3)信息增益比
定义:特征A对训练数据集D的信息增益比定义为其信息增益与训练数据集D的经验熵H(D)之比:
阅读全文
0 0
- 决策树的相关概念
- 决策树与随机森林相关概念
- 决策树算法(一)-相关概念
- 决策树与随机森林相关概念及其Python实现
- PPC的相关概念
- 线程的相关概念
- Spring的相关概念
- UAC相关的概念
- porlet 的相关概念
- JVM的相关概念
- 股票的相关概念
- CVS的相关概念
- 随机数的相关概念
- JVM的相关概念
- 进程相关的概念
- blast的相关概念
- onvif 的相关概念
- AJAX的相关概念
- 字符串-leetcode 557 Reverse Words in a String III
- PHP如何实现简单的接口
- label一点分享
- 解析BeanDefinition之解析各种属性。
- 解决viewpager嵌套滑动冲突,并保留侧滑菜单功能
- 决策树的相关概念
- FFMpeg处理RTMP流
- IPv4数据报
- [RK3288][Android6.0] RTC模块RX8010SJ硬件部分概要
- Ubuntu14.04 无法连接网络排查
- 用两个栈实现队列
- 拼凑钱币
- file用法
- Windows下Python快速解决error: Unable to find vcvarsall.bat