ID3和C4.5

来源:互联网 发布:东南亚境外旅游数据 编辑:程序博客网 时间:2024/04/29 08:15

(一)简介

1.决策树是一种基本的分类与回归方法,由结点跟有向边组成;其中结点可以分为内部结点(代表特征)跟叶结点(代表类别或者回归预测值);

2.决策树模型:从根结点开始,对样本的某一特征进行测试,根据测试结果,将样本分配到其子结点,如此递归对样本进行测试并分配,直至达到叶结点;

3.决策树模型的学习有3个步骤:特征选择,决策树的生成(局部最优化过程),决策树的剪枝(全局最优化过程);

4. 决策树模型的3种经典学习算法:ID3,C4.5,CART;

5.本博文主要讲解ID3跟C4.5算法,两者的区别主要在于前者用的是信息增益来选择特征,后者用的是信息增益比来选择特征以及增加对连续值特征的处理步骤;

PS:ID3与C4.5主要适用于分类问题,CART既适用于分类也适用于回归预测问题;

(二)特征选择

1.熵的定义:表示随机变量的不确定性;熵越大,随机变量的不确定性越大;熵只跟随机变量的概率分布有关;


2.信息增益与信息增益比

(1)符号简介


PS:数据集总共有K个类;特征A有n个取值;绝对值符号表示数据集容量;

(2)数据集D的熵的计算:


(3)已知特征A求数据集D的熵:


(4)计算特征A的信息增益:


(5)信息增益比的计算:信息增益除以划分信息;划分信息定义如下:


(三)决策树的生成

1.数据集记为D;样本的特征集记为A;生成的决策树记为T;信息增益阈值记为t;

2.生成算法:

(1)从根结点开始,数据集D全部分配在根结点;

(2)若D中所有样本都属于同一类,则将该类作为该结点的类标记,并返回T;

(3)若A为空集,则将D中样本数最大的类作为该结点的类标记,并返回T;

(4)计算特征集A中各特征对D的信息增益,选择信息增益最大的特征Ag;如果特征Ag的信息增益小于阈值t,那么将D中样本数最大的类作为该结点的类标记,并返回T;

(5)依据特征Ag的每一可能值ai,将D分割为若干个非空子集Di 并将Di中样本数最大的类作为类标记构建子结点,由结点跟子结点组成树T,返回T;

(6)对于第 i 个子结点,以Di为训练集,以A-{Ag}为特征集,递归地调用(2)~(5),得到子树Ti,返回T;

(四)常见问题

1.C4.5比起ID3的改进:

(1)在ID3中用信息增益选择特征时,会偏向于选择取值多的特征(不一定是最好的特征);而采用信息增益比,可以削弱这种影响;

(2)增加对连续值特征的处理步骤,将值排序,然后依次选择相邻两个数的中值进行二元划分,计算信息增益比,从而选出最佳划分点;

2.决策树的优点:

(1)计算简单,可解释性强;

(2)适合处理有缺失属性值的样本:空缺值相当于分裂时加多一个分支;

(3)能够处理不相关的特征;

3.决策树的缺点:

(1)容易过拟合;

(2)不适合大样本数据集:每次分裂都需要遍历整个样本;

原创粉丝点击