监督学习一 决策树

来源:互联网 发布:python键值对 编辑:程序博客网 时间:2024/06/05 23:49

1、定义:决策树是一种决策结构,其中每个决策都会产生一系列结果以及其他决策;决策树也是一种分类算法,预测模型。在已知各种情况发生概率的情况下,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。


2、分类与回归之间的区别

       分类:从某种输入映射到某些概念,针对离散型数据,例如性别等。

       回归:从某种输入空间映射到实际数据,针对连续性数据,例如年龄、体重、距离等。


3、分类学习

      训练集:用于构建模型;

      测试集:用于测试模型,验证经过训练过后的模型的准确性。


4、决策树的表示法

      决策树是一种自顶向下的树形结构,最顶上的是根节点。



5、决策树学习

      决策树的学习类似于“20个问题”游戏即你可以通过提出的20个问题来猜测对方想的是什么,如果在20问内猜对了就算赢,如果超出20问,游戏失败。

      决策树生成步骤:

      (1)获取最佳属性,所谓“最佳”就是分割数据的最佳的属性;

      (2)提出相关问题;

      (3)根据之前提出的问题得到相应的答案,在根据答案继续往下走;

      (4)回到第一步,开始循环找到一个答案。


6、ID3算法

     定义:ID3算法起源于概念学习系统(CLS),以信息熵的下降速度为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,直到生成的决策树能完美分类训练样例。

     ID3算法步骤:

    


7、决策树连续属性

     对于具有连续属性的决策树来说,在决策树的特定路径上可以出现重复的连续属性。

    连续属性一般有年龄、体重、距离等。


8、决策树停止的时间点

      ·每个属性都正确分类了;

      ·没有更多的属性了;

      ·没有过拟合的情况存在。(通过剪枝来避免这种情况的发生)


9、决策树小结:

      A、决策树的表现方法;

      B、用于推导决策树的自顶向下算法ID3(贪心算法);

      C、决策树可表达性的种类(AND、OR、XOR);

      D、ID3(贪心算法)的偏差;

      E、选取决策树的最佳属性,在分割数据的时候,通过信息增益的方法进行划分;

      F、解决决策树中的过拟合问题,通过对决策树进行剪枝来避免过拟合的情况。


原创粉丝点击