机器学习算法—决策树（Decision Tree）

来源：互联网发布：淘宝大学vip课送工具编辑：程序博客网时间：2024/05/22 01:37

1、什么是决策树（Decision Tree）？
决策树是一个类似于流程图的树结构，根据一些 feature 进行分类，每个节点提一个问题，通过判断，将数据分为两类，再继续提问。这些问题是根据已有数据学习出来的，再投入新数据的时候，就可以根据这棵树上的问题，将数据划分到合适的叶子上，是一种监督式学习。

这里写图片描述

2、构造决策树的方法
① 信息熵
一条信息的信息量大小和它的不确定性有直接的关系，信息量的度量就等于不确定性的大小，我们用“信息熵”来衡量。变量的不确定性越大，熵就越大。
若待分类的事物可能划分在N类中，分别是x1，x2，……，xn，每一种取到的概率分别是P1，P2，……，Pn，那么X的熵就定义为：

这里写图片描述从定义中可知:0≤H(X)≤log(n)。

当随机变量只取两个值时，即X的分布为 P(X=1)=p,X(X=0)=1−p,0≤p≤1则熵为:H(X)=−plog2(p)−(1−p)log2(1−p).

② 信息增益（Information Gain）
Gain(age) = H(D)-H_age(D)，表示以age属性作为根节点进行分类，信息增益的大小代表age属性的信息获取量的大小，分别计算每个属性（age,gender,occupation）的信息增益，选择信息增益最大的一个属性作为第一个根节点。利用同样的方法不断进行下面节点的选择，即不断扩大决策树。
决策树停止条件：
（1）给定节点的所有样本属于同一类；
（2）没有剩余属性可以用来进一步划分样本；

3、python实现

明天再写，累了！

4、决策树算法的优缺点

优点：直观，便于理解，对小规模数据有效。
缺点：处理连续变量不好，需要进行离散化，阈值的选择会影响效果；当类别较多时，错误增加的会比较快，易过拟合；对大规模数据不太适用。

阅读全文

0 0