学习决策树算法

来源：互联网发布：淘宝手机比京东便宜编辑：程序博客网时间：2024/06/05 00:28

决策树可以用于分类和回归

算法有ID3、C4.5、C5.0和CART

ID3选择属性用的是信息增益，该度量基于熵，选择具有最高信息增益的属性作为分裂属性；信息增益倾向于选择具有大量值的属性，当考虑作为唯一标识符的属性如ID时，是没有意义的。

C4.5选择属性用是信息增益率

C5.0在C4.5基础上有所改进，占内存小，更精确

CART（Classification and Regression Trees）与C4.5很相似，但是它支持数值型的目标变量（回归），只做二元切分

scikit-learn使用一种优化的CART算法。

首先导入 from sklearn import tree

DecisionTreeClassifier是一个能处理分类（二元或多元）的类。

from sklearn.metrics import precision_recall_curve

precision_recall_curve()方法返回准确率、召回率以及

print(clf.feature_importances_) 输出每个特征的影响力，越大表示该特征在分类中起的作用越大

准确率(precision)和召回率(recall)：

precision=分类器断言为正类的那部分记录中，实际为正类的记录所占的比例

recall=被分类器正确预测的正样本的比例，即正确预测的正样本记录数占实际正样本记录的比例

0 0