决策树算法---概念

来源：互联网发布：java自学还是培训编辑：程序博客网时间：2024/06/11 21:25

机器学习中分类和预测算法的评估标准

准确率：算法预测结果是否准确

速度：算法运行的速度

强壮性：当存在数据缺失或错误，算法是否正常运行

可规模性：对于大规模的数据，算法是否正常运行

可解释性：算法的运算结果是否可以用已有的理论解释

什么是决策树 / 判定树（decision tree)

判定树是一个类似于流程图的树结构：其中，每个内部结点表示在一个属性上的测试，每个分支代表一个属性输出，而每个树叶结点代表类或类分布。树的最顶层是根结点。

以上的概念比较抽象，下面举例说明：
采用的例子是前面的文章《机器学习和深度学习的相关概念》中的例1：

这里写图片描述

决策树的构造方法

熵（entropy）的概念：

1948年，香农提出了 ”信息熵（entropy）“的概念：
一条信息的信息量大小和它的不确定性有直接的关系，要搞清楚一件非常非常不确定的事情，或者是我们一无所知的事情，需要了解大量信息==>信息量的度量就等于不确定性的多少。

信息熵表达式：
这里写图片描述

变量的不确定性越大，熵也就越大

决策树归纳算法中的 ID3算法：

通过属性的信息获取量来选择采用哪个属性来判断。

信息获取量（Information Gain）：
Gain(A) = Info(D) - Info_A(D)
其中：
Gain(A)：表示通过属性A来作为节点分类获取了多少信息量。
Info(D)：表示没有按照任何属性分类时的原始的信息量
Info_A(D)：表示把实例按照A属性进行分类之后的信息量
后两者相减，就是用A属性进行分类之后，获得的信息量。

在用A属性进行分类之后，信息量会比原始的信息量减少，不确定性减少就代表信息量减少，减少的信息量就是通过A属性分类所获得的信息量。

举例说明：
下图是一系列实例，分类标志是人们是否购买电脑：
这里写图片描述