二叉搜索树修改

来源:互联网 发布:知画怀有乾隆的孩子 编辑:程序博客网 时间:2024/06/05 08:10

如果有一个方法,每迭代一步都能从数据中选出一部分“高纯度”的特定类,

那么即使每步只能分别出1%的类别,只需100步即可完成漂亮的分类规则。


ID3算法、C4.5等算法使用熵作为评价标准,导致一个问题:树细分到一个样本一个节点,熵为0。

为应付这个情况,通常选择固定子树数量上限等方法。


相对应的,cart树直接定义为二叉树,保证了每次划分的结果是,从总体而言把不同类尽可能分开。


如果说每次选出部分小类是“捡芝麻”,那么目前的算法可以算是“切西瓜”

然而,我觉得“捡芝麻”也是可以考虑到,尤其是树结构最后是由叶节点类别是投票选择的,满足了大部分“选民”,牺牲了小部分。

但如果可以在算法过程及时考虑“少数者”,尽早将其划分出,那么剩余的数据所生成的树,将有更高“纯度”的叶节点


具体的,当划分满足以下简单的要求:所划分出的部分有足够的数目、纯度。则在该阶段直接生出一个预测类别的叶节点。

0 0