学习决策树算法

来源:互联网 发布:淘宝手机比京东便宜 编辑:程序博客网 时间:2024/06/05 00:28

决策树可以用于分类和回归
算法有ID3、C4.5、C5.0和CART
ID3选择属性用的是信息增益,该度量基于熵,选择具有最高信息增益的属性作为分裂属性;信息增益倾向于选择具有大量值的属性,当考虑作为唯一标识符的属性如ID时,是没有意义的。
C4.5选择属性用是信息增益
C5.0在C4.5基础上有所改进,占内存小,更精确
CART(Classification and Regression Trees)与C4.5很相似,但是它支持数值型的目标变量(回归),只做二元切分
scikit-learn使用一种优化的CART算法。

首先导入 from sklearn import tree
DecisionTreeClassifier是一个能处理分类(二元或多元)的类。

from sklearn.metrics import precision_recall_curve 
precision_recall_curve()方法返回准确率、召回率以及

print(clf.feature_importances_) 输出每个特征的影响力,越大表示该特征在分类中起的作用越大

准确率(precision)和召回率(recall):
precision=分类器断言为正类的那部分记录中,实际为正类的记录所占的比例
recall=被分类器正确预测的正样本的比例,即正确预测的正样本记录数占 实际正样本记录的比例


0 0
原创粉丝点击