决策树

来源:互联网 发布:sql with树形 编辑:程序博客网 时间:2024/05/21 06:31

分类的作用

确定对象属于哪个预定义的目标类,并且类标号必须是离散的。回归里面是连续的。

分类的定义

得到一个目标函数f,把每个属性集x映射到一个预定义的类标号y。 目标函数也称为分类模型。

分类的目的

  1. 描述性建模
  2. 预测性建模

适合范围

  1. 比较适合标称的或者二元的
  2. 不怎么适合序数 比如{高收入,中收入,低收入}

注意

  1. 多路划分的Gini指标比两个二元划分都小。
  2. 都容易去选择多分支的

特点

  1. 是一种构建分类模型的非参数方法。 不要求任何先验假设,不假定类和其他属性服从一定的概率分布。
  2. 建立好后分类很快
  3. 容易理解
  4. 对噪声的干扰具有很好的鲁棒性
  5. 存在数据碎片的问题
  6. 决策边界是平行于坐标轴的,如果只是使用单个属性的测试条件不能很好的划分

误差

  1. 训练误差
  2. 泛化误差
0 0