决策树模型(1)
来源:互联网 发布:验证码注册软件 编辑:程序博客网 时间:2024/05/22 12:52
分类
通过已有的训练集,输入相应的模型中训练拟合,在通过检验集进行进行验证,从而预测未知样本类;
常用的分类法有决策树分类,基于规则的分类,神经网络,支持向量机, 朴素贝叶斯分类法,通常每一种分类方法都对应这一种模型算法。决策树模型就是其中的一种学习算法
混淆矩阵
通过将计数存放在混淆矩阵中,根据正确和错误预测来评估模型的性能
| |预测的类 |
| |:类=1 |类=0 |
|实际的类|类=1|:f _11 |: f _10|
| |:类=0|:f _01 |:f _00 |
通过性能度量正确率、错误率来比较不同模型之间的性能
正确率= (f_11 + f _00) / (f _11+f _10+f _01+ f _00)
错误率= (f_01 + f _10) / (f _11+f _10+f _01+ f _00)
决策树原理
import 根节点if 条件 叶节点 elseif 条件 叶节点 elseif ... end
建立决策树
如果没有任何限制(即贪婪策略),可以建立数目达到指数级别的决策树,但要想从这些决策树中找出最优的决策树,往往限制庞大的计算量和时间。所以闲的蛋疼的人就开发出各种算法来有效的算法来建立最优决策树,Hunt算法就是其中一种,Hunt算法也是众多决策树算法中的一种,包括ID3,C4.5,CART(只能产生二元划分)等
Hunt算法
在Hunt算法中,通过将训练记录划分成较纯的子集,以递归的方式建立决策树
1、def:
2、分裂
3、结束
属性测试条件:
二元属性:产生两个可能的输出
标称属性:含有多个属性,通过多种方法表示测试条件,eg:已婚,离异,单身狗;
序数属性:不违有序性的标称属性;
连续属性:可通过比较测试来分段分类;
选择最佳划分的度量
通常是根据划分后子女节点的不纯性程度,不纯度越低,类分布就越倾斜
Entropy、Gini、Classification error 等等啦
信息增益:一般为了测试条件的效果,需要比较父节点(划分前)的不纯度和子女节点的不纯度,差值越大,测试条件效果就越好,可以通过信息增益△来确定划分效果
最大化信息增益等价与子女节点的不纯度的加权平均
.
.
.
过分拟合和多重比较
for example
预测未来10个交易日股市是升还是降,假如随机猜测,猜对的概率为0.5,那么10次至少猜中8次的概率是:
如果是50个人随机猜测,那个至少有一个人猜中8次以上的概率:
0.9399!!!
如果我们抓取50个股票分析专家对同一支股票的预测结果,从而预测后续十天的涨跌,是不是可以保赚不赔了。
- 决策树模型(1)
- 分类(1):决策树与模型评估
- 自动训练(决策树)模型
- 决策树模型
- 决策树模型
- 决策树模型
- 决策树模型
- 决策树模型
- R语言练习-利用决策树模型分析泰坦尼克生还率(1)
- 基于决策树的模型
- 决策树模型入门学习
- 决策树-模型与学习
- 决策树模型调优
- 决策树(1)ID3
- 决策树-笔记(1)
- 单一决策树与集成模型(随机森林分类器、梯度提升决策树)的比较
- 决策树模型组合之(在线)随机森林与GBDT
- 决策树模型组合之(在线)随机森林与GBDT
- 批处理命令修改USB无线网卡mac地址
- 2017 计蒜之道 初赛 第二场 B. 百度的科学计算器(简单)
- 338. Counting Bits
- Centos 7.0下运行yum,返回bash: yum: 未找到命令..
- Permission Denial: reading com.android.providers.media.MediaProvider uri content://media/external/i
- 决策树模型(1)
- lombok的使用和原理
- 51NOD 1125(交换机器最小代价) (贪心) 思想 !思想!
- SSH整合
- SpringMVC-Post/Get请求中文乱码问题
- springMVC入门实例 springMVC简单入门
- Myeclipse中断点调试和单步调试
- 机器学习基础——Anaconda环境
- 双硬盘,双显卡,Win10下安装Ubuntu16.04 64bit,GPT分区+UEFI