决策树(Decision Tree)

来源:互联网 发布:淘宝外贸原单死人衣服 编辑:程序博客网 时间:2024/05/18 15:06

决策树/判定树(Decision Tree)

决策树是一个类似于流程图的树结构:其中,每一个内部结点表示在一个属性上的测试,每一个分支表示一个属性输出,而每一个树叶结点代表类或类分布。数的最顶层是根节点。

这里写图片描述

信息熵

信息是个很抽象的概念。人们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。
直到1948年,香农提出了“信息熵”的概念,才解决了对信息的量化度量问题。信息熵这个词是C.E.香农从热力学中借用过来的。热力学中的热熵是表示分子状态混乱程度的物理量。香农用信息熵的概念来描述信源的不确定度。公式:这里写图片描述

决策树归纳算法 (ID3)

这里写图片描述

这个算法是根据信息获取量(Information Gain)来构建决策树的,如:

这里写图片描述
这里写图片描述

Gain(age) = 0.694,Gain(income) = 0.029,Gain(student) = 0.151,Gain(credit_rating)=0.048,
所以决策树的第一个节点为age,第n个也是如此:

这里写图片描述

决策树的优缺点

优点: 直观,便于理解,小规模数据集有效

缺点:处理连续变量不好;类别较多时,错误增加的比较快;可规模性一般

原创粉丝点击