决策树的相关概念

来源:互联网 发布:网络奇谈恐惧鸟电子版 编辑:程序博客网 时间:2024/05/19 03:45

(1)熵
在信息论与概率统计中,熵是表示随机变量不确定性的度量。设X是一个取有限个值得离散随机变量,其概率分布为:
这里写图片描述
则随机变量X的熵定义为
这里写图片描述

由上式可知,熵只依赖于X的分布,而与X的取值无关,所以也可以将X的熵记作H(p)。
设有随机变量(X,Y),其联合概率分布为
这里写图片描述

条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性。随机变量X给定的条件下随机变量Y的条件熵H(Y|X),定义为X的给定条件下Y的条件概率分布的熵对X的数学期望
这里写图片描述
其中,这里写图片描述
信息增益表示得知特征X的信息而使得Y的信息的不确定性减少的程度。
(2)定义信息增益
特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即
这里写图片描述
注意:对于信息数据集D而言,信息增益依赖于特征,不同的特征往往具有不同的信息增益,信息增益大的特征具有更强的分类能力。
信息增益算法算法
输入:训练数据集D和特征A;
输出:特征A对训练数据集D的信息增益g(D,A)。
(1). 计算数据集D的经验熵H(D)
这里写图片描述
(2). 计算特征A对数据集D的经验条件熵H(D|A)
这里写图片描述
(3). 计算信息增益
这里写图片描述
(3)信息增益比
定义:特征A对训练数据集D的信息增益比定义为其信息增益与训练数据集D的经验熵H(D)之比:
这里写图片描述