决策树的相关概念

来源：互联网发布：网络奇谈恐惧鸟电子版编辑：程序博客网时间：2024/05/19 03:45

（1）熵
在信息论与概率统计中，熵是表示随机变量不确定性的度量。设X是一个取有限个值得离散随机变量，其概率分布为：
这里写图片描述
则随机变量X的熵定义为

由上式可知，熵只依赖于X的分布，而与X的取值无关，所以也可以将X的熵记作H(p)。
设有随机变量(X,Y)，其联合概率分布为
这里写图片描述

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X)，定义为X的给定条件下Y的条件概率分布的熵对X的数学期望
这里写图片描述
其中，。
信息增益表示得知特征X的信息而使得Y的信息的不确定性减少的程度。
（2）定义信息增益
特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即
这里写图片描述
注意：对于信息数据集D而言，信息增益依赖于特征，不同的特征往往具有不同的信息增益，信息增益大的特征具有更强的分类能力。
信息增益算法算法
输入：训练数据集D和特征A；
输出：特征A对训练数据集D的信息增益g(D,A)。
（1）. 计算数据集D的经验熵H(D)
这里写图片描述
（2）. 计算特征A对数据集D的经验条件熵H(D|A)

（3）. 计算信息增益

（3）信息增益比
定义：特征A对训练数据集D的信息增益比定义为其信息增益与训练数据集D的经验熵H(D)之比：

阅读全文

0 0