决策树(Decision Tree)

来源:互联网 发布:中山淘宝摄影 编辑:程序博客网 时间:2024/06/04 19:00
  1. 基本概念
    决策树是一个类似于流程图的树结构:其中,每个内部结点表示在一个属性上的测试,每个分支代表一个属性输出,而每个树叶结点代表类或类分布。树的最顶层是根结点。决策树是机器学习中分类方法中的一个重要算法决策树

  2. 决策树归纳算法 (ID3)
    信息获取量(Information Gain):Gain(A) = Info(D) - Infor_A(D)。也就是通过A来作为节点分类获取了多少信息。
    信息获取量
    依照这种办法选取信息获取量最大的属性(这里是age),作为第一个根节点。
    这里写图片描述
    然后重复之前的步骤。

  3. 其它算法与ID3的比较
    共同点:都是贪心算法,自上而下。
    不同点:属性选择度量方法不同: C4.5 (gain ratio), CART(gini index), ID3 (Information Gain)。

  4. 优缺点
    优点:直观,便于理解,小规模数据集有。
    缺点:处理连续变量不好;类别较多时,错误增加的比较快;可规模性一般。