二叉搜索树修改

来源：互联网发布：知画怀有乾隆的孩子编辑：程序博客网时间：2024/06/05 08:10

如果有一个方法，每迭代一步都能从数据中选出一部分“高纯度”的特定类，

那么即使每步只能分别出1%的类别，只需100步即可完成漂亮的分类规则。

ID3算法、C4.5等算法使用熵作为评价标准，导致一个问题：树细分到一个样本一个节点，熵为0。

为应付这个情况，通常选择固定子树数量上限等方法。

相对应的，cart树直接定义为二叉树，保证了每次划分的结果是，从总体而言把不同类尽可能分开。

如果说每次选出部分小类是“捡芝麻”，那么目前的算法可以算是“切西瓜”

然而，我觉得“捡芝麻”也是可以考虑到，尤其是树结构最后是由叶节点类别是投票选择的，满足了大部分“选民”，牺牲了小部分。

但如果可以在算法过程及时考虑“少数者”，尽早将其划分出，那么剩余的数据所生成的树，将有更高“纯度”的叶节点

具体的，当划分满足以下简单的要求：所划分出的部分有足够的数目、纯度。则在该阶段直接生出一个预测类别的叶节点。

0 0