决策树

来源:互联网 发布:淘宝二手手机可靠店铺 编辑:程序博客网 时间:2024/06/05 16:14

1. 

信息熵:度量样本集合纯度最常用的一种指标;信息熵Ent(D)越小,则样本集D的纯度越高

Ent(D)= E[ log(2,1/p(xi)) ] = -∑pklog(2,pk) (i=1,2,..n);pk是指第k类样本所占比例(此处分类则根据标签划分类)

信息增益(ID3决策树的准则):离散属性a有V个值,对D按照a进行划分,会产生V个分支点,其中第v个分支点包含了D中属性a取值为av的样本,记为Dv,然后计算Dv的信息熵,然后赋予权重|Dv|/|D|.一般,信息增益越大,意味着使用属性a来进行划分所获得的‘纯度提升’越大。

Gain(D,a)=Ent(D)-Σ(v=1...V)|Dv|/|D|Ent(Dv)

信息增益率(C4.5决策树的准则):

Gain_ratio(D,a)=Gain(D,a)/IV(a);IV(a)=Σ(v=1...V)|Dv|/|D|log(2,|Dv|/|D|)

值得注意的是:信息增益率对取值数较少的属性有所偏好,因此C4.5算法并不是直接选择增一律最大的候选划分属性,而是先从候选划分属性中找出高于平均水平的属性,再从中选择增益率最高的。(可以看出,C4.5决策树是在ID3决策树基础上改进)

基尼值:Gini(D)反映了从数据集D中随机抽取两个样本,其类别标记不一致的概率。因此,Gini(D)越小,则数据集D的纯度越高

Gini(D)=1-Σ(k=1...y)pk^2

基尼指数(CART决策树准则):Gini_index(D,a)=Σ(k=1...y)|Dv|/|D|Gini(Dv); 选择基尼指数最小的属性作为最优划分属性,即a*=argmin Gini_index(D,a) 其中 a属于属性集合A。


2.

连续值处理:以上1所讲的是针对离散属性值来生成决策树,如果是连续值,则先进行离散化。最简单的方法是采用二分法对连续属性进行处理。

连续值处理步骤:1.先对目标属性值进行从小到大排序,记为{a1,a2,....,an} 2.对相邻两个数ai和a(i+1),求t=(ai+a(i+1))/2,确定n-1个划分点 3.对每个划分点进行划分求信息           增益,然后求出最大信息增益以及相应的划分点。思路类似于交叉验证。



原创粉丝点击