决策树的几点注记

来源:互联网 发布:欧拉回路算法 编辑:程序博客网 时间:2024/06/16 07:11

1、对每个特征,有两种特征值:“是”与“否”,数学上,0与1。对特征进行划分,实质上是对特征值进行划分。在这个特征下,属于“是”的到一边,属于“否”的到另一边。

2、如果在该数据集下,所有样本的类别都是一样的,则划分停止。

3、每次划分,会产生两个子数据集 。信息增益是子数据集熵的加权平均与母数据集的熵之差。

4、如何从不熟悉的数据集中提炼出“是否”的问答规则。决策树的核心。

5、熵(entropy)衡量事物的混乱程度。事物越有序,熵越低;越无序,熵越高。可以将划分前的数据集理解为无序的状态,为了使得信息增益最大,则划分后的数据集应该是越有序越好。其差值自然越大。