决策树

来源：互联网发布：淘宝二手手机可靠店铺编辑：程序博客网时间：2024/06/05 16:14

信息熵：度量样本集合纯度最常用的一种指标；信息熵Ent(D)越小，则样本集D的纯度越高

Ent(D)= E[ log(2,1/p(xi)) ] = -∑pklog(2,pk) (i=1,2,..n);pk是指第k类样本所占比例（此处分类则根据标签划分类）

信息增益（ID3决策树的准则）：离散属性a有V个值，对D按照a进行划分，会产生V个分支点，其中第v个分支点包含了D中属性a取值为av的样本，记为Dv，然后计算Dv的信息熵，然后赋予权重|Dv|/|D|.一般，信息增益越大，意味着使用属性a来进行划分所获得的‘纯度提升’越大。

Gain(D,a)=Ent(D)-Σ(v=1...V)|Dv|/|D|Ent(Dv)

信息增益率（C4.5决策树的准则）：

Gain_ratio(D,a)=Gain（D,a）/IV(a);IV(a)=Σ(v=1...V)|Dv|/|D|log(2,|Dv|/|D|)

值得注意的是：信息增益率对取值数较少的属性有所偏好，因此C4.5算法并不是直接选择增一律最大的候选划分属性，而是先从候选划分属性中找出高于平均水平的属性，再从中选择增益率最高的。（可以看出，C4.5决策树是在ID3决策树基础上改进）

基尼值：Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率。因此，Gini(D)越小，则数据集D的纯度越高

Gini(D)=1-Σ(k=1...y)pk^2

基尼指数(CART决策树准则)：Gini_index(D,a)=Σ(k=1...y)|Dv|/|D|Gini(Dv); 选择基尼指数最小的属性作为最优划分属性，即a*=argmin Gini_index(D,a) 其中 a属于属性集合A。

连续值处理：以上1所讲的是针对离散属性值来生成决策树，如果是连续值，则先进行离散化。最简单的方法是采用二分法对连续属性进行处理。

连续值处理步骤：1.先对目标属性值进行从小到大排序，记为{a1,a2,....,an} 2.对相邻两个数ai和a(i+1),求t=(ai+a(i+1))/2,确定n-1个划分点 3.对每个划分点进行划分求信息增益，然后求出最大信息增益以及相应的划分点。思路类似于交叉验证。

想

阅读全文

1 0