数据挖掘回顾八:回归算法之 CART 算法 (回归树)

来源:互联网 发布:中非混血儿受歧视知乎 编辑:程序博客网 时间:2024/04/27 14:43


1,CART 算法全称 分类回归树 算法,又称回归树算法。它是一种回归算法,也是一种决策树算法。它既可以处理离散型数据,还可以处理连续性数据。


2,CART 算法其实是一个比较复杂的算法,这里说明一个其简单的形式。


3,CART 算法包括两个步骤:第一步:分裂数据集生成回归树。第二步,为避免过拟合,对回归树进行剪枝处理。


4,CART 算法和决策树ID3算法一样,本质上也是构建一个决策树。它较之ID3算法的不同之处在于:第一,ID3算法每生成一层树桩,就要消耗掉一个特征属性;而在CART 算法中,就不会,上层树桩已经消耗的特征属性,仍然有资格作为下一层树桩的切分特征的候选。第二,ID3算法在每一层切分数据集的时候,可以是二元切分,也可以是多元切分(即可以把数据集切成大于两个以上的子数据集);而CART 算法只是二元切分,其切分点包括切分特征属性和切分特征属性值,这是由于数据集中特征属性值是连续的,我们只有取数据集中当前特征值取值中使得误差最小的那个特征值作为当前层树桩的切分特征值。第三,ID3算法会产生过拟合的问题,而CART 算法比较好地解决了此问题。

此二算法的相同之处在于:第一,最终生成的决策树的叶子节点都表示对一条数据的预测类别或预测目标值。


5,CART 算法在分裂的时候,怎么选定切分特征和切分特征值,也是通过求误差最优的方式。这里的误差的算法可以有多种方式,但对于一条数据来说,一般都应要代表模型预测值和真实值之间的差异。然后对训练集的所有数据,求一个总差异,让这个总差异最小的特征和特征值就作为切分特征和切分特征值。这和ID3算法是类似的,ID3算法在切分的时候,要使得信息增益(熵增益)最大。


6,CART 算法在剪枝的时候:对于用训练数据集训练出来的回归树;然后利用测试数据集,一一选定要合并的链各个叶子节点,看将这个两个叶子节点合并后能否降低测试误差,如果能,就合并这两个叶子节点,即进行了一次剪枝动作。也就是说,剪枝就是合并可以合并的叶子节点。


7,一般来说,回归树 要比 线性回归 在分类或预测数据上的效果好。 









0 0
原创粉丝点击