决策树分类算法

来源:互联网 发布:苹果软件破解版 编辑:程序博客网 时间:2024/05/17 01:42

决策树从一组无次序、无规则的事例中推理出决策树表示形式的分类规则。采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,根据不同的属性值判断从该节点向下的分支,在决策树的叶节点得到结论。所以,从决策树的根节点到叶节点的一条路径就对应着一条合取规则,整棵决策树就对应着一组析取表达式规则。

决策树的方法:ID3、CN2、SLIQ、SPRINT等。一般使用ID3和C4.5决策树方法。

决策树分类分为两个步骤:

(1)决策树生成;

(2)决策树修剪;

一、决策树生成的算法:(自上而下的递归)

输入:一组带有类别标记的样本;

输出:构造一颗决策树,(二叉或多叉)。

二叉:内部节点(非叶子)节点一般表示为一个逻辑判断,如(ai = vi),ai是属性,vi是该属性的值,树的边是逻辑判断的分支结果。

多叉:内部节点是属性,边是该属性的所有取值,有几个属性值就有几条边,树的叶子节点都是类别标记。

二、决策树修改算法

(1)预先剪枝:在生成树的同时决定是继续对不纯的训练子集进行划分或停机。

(2)后剪枝:拟合-化简两个步骤。先生成与训练数据完全拟合的一棵决策树,然后从叶子开始剪枝,逐步向根方向剪枝。剪枝时用到一测试数据集合,如果存在某个叶子剪去后测试集上的准确度或其他测试度不降低,则剪去该叶子;否则停机。

0 0
原创粉丝点击