机器学习算法—决策树(Decision Tree)

来源:互联网 发布:淘宝大学vip课送工具 编辑:程序博客网 时间:2024/05/22 01:37

1、什么是决策树(Decision Tree)?
决策树是一个类似于流程图的树结构,根据一些 feature 进行分类,每个节点提一个问题,通过判断,将数据分为两类,再继续提问。这些问题是根据已有数据学习出来的,再投入新数据的时候,就可以根据这棵树上的问题,将数据划分到合适的叶子上,是一种监督式学习。

这里写图片描述

2、构造决策树的方法
① 信息熵
一条信息的信息量大小和它的不确定性有直接的关系,信息量的度量就等于不确定性的大小,我们用“信息熵”来衡量。变量的不确定性越大,熵就越大。
若待分类的事物可能划分在N类中,分别是x1,x2,……,xn,每一种取到的概率分别是P1,P2,……,Pn,那么X的熵就定义为:

这里写图片描述 从定义中可知:0≤H(X)≤log(n)。

当随机变量只取两个值时,即X的分布为 P(X=1)=p,X(X=0)=1−p,0≤p≤1则熵为:H(X)=−plog2(p)−(1−p)log2(1−p).

② 信息增益(Information Gain)
Gain(age) = H(D)-H_age(D),表示以age属性作为根节点进行分类,信息增益的大小代表age属性的信息获取量的大小,分别计算每个属性(age,gender,occupation)的信息增益,选择信息增益最大的一个属性作为第一个根节点。利用同样的方法不断进行下面节点的选择,即不断扩大决策树。
决策树停止条件:
(1)给定节点的所有样本属于同一类;
(2)没有剩余属性可以用来进一步划分样本;

3、python实现

明天再写,累了!

4、决策树算法的优缺点

优点:直观,便于理解,对小规模数据有效。
缺点:处理连续变量不好,需要进行离散化,阈值的选择会影响效果;当类别较多时,错误增加的会比较快,易过拟合;对大规模数据不太适用。

阅读全文
0 0
原创粉丝点击