scikit-learn学习1.10. 决策树(Decision Trees)

来源：互联网发布：淘宝网店怎样优化编辑：程序博客网时间：2024/06/04 20:20

决策树（DTS）是一种用来进行分类和回归的非参数监督学习方法。它是通过数据特征来学习到简单的决策规则，构造一个模型来预测目标变量的值。

例如在下面的例子中，决策树从数据中学习到一系列if-then-else的决策规则来近似一个正弦曲线。树的层次越深，决策规则和模型越复杂。

决策树的优势：

决策树学习时可能会创建一个过于复杂的树，不能有效的推广，这个称为过拟合。需要通过修剪(目前还不支持)，设置叶子节点需要的最小样本数目，设置最大深度等机制来避免过拟合。
决策树可能会不稳定，因为数据的很小变化就肯能导致生成一个完全不同的树。这个问题可以通过在一个整体里使用决策树来缓解。
学习到一个最优的决策树的问题是一个NP完全问题。

有哪些不同的决策树算法？它们之间有什么不同？在scikit-learn中实现了那个算法？

………………

CART(分类和回归树)和C4.5很像，不同的是它支持数值类型的变量(回归)，并且不计算规则集。CART使用特征和阈值产生每个节点的最大信息增益来构建二叉树。

scikit-learn中使用的是CART算法的一个优化版本。

（未完结）

0 0