3.3 决策树DecisionTrees

来源:互联网 发布:英国普利茅斯大学 知乎 编辑:程序博客网 时间:2024/06/05 11:11

引言

一个接一个的解决多元线性问题,如同不停的问问题,不同问题的分支,就如同设定了多个决策面

1. SupportVectorMachines

1.1. 导入代码:

from sklearn import treeclf = tree.DecisionTreeClassifier()#对于分类问题clf = tree.DecisionTreeRegressor()#对于回归问题

1.2 决策树常见参数

  • depth_map,越小容易高偏差,拟合不够,越大容易高方差,过拟合。
  • min_samples_split,最小样本分割数量,分到剩下多少个就不再分。越小决策树越复杂,准确率可能反而降低

1.3 熵 Entropy

测量一系列样本不纯度的方式
entropy = i0Pilog2Pi

1.4 信息增益

决策树会最大化信息增益,信息增益 = 父熵 - 权 x 子熵,根据信息增益进行拆分
可以参考 信息论的熵

1.5 优缺点

比支持向量机还好理解,不过当存在大量特征时,容易过拟合,可以通过集成,构建更大的分类器

1.6 决策树的可表达性

AND OR XOR

1.7 ID3

1.8 常用GridSearchCV,寻找最佳参数组合

原创粉丝点击