浅谈决策树
来源:互联网 发布:小说码字软件 编辑:程序博客网 时间:2024/05/14 04:00
决策树(decision tree)是一种常见的机器学习方法。看了周志华西瓜书后来简要谈谈自己的认识:
首先,引入了“信息熵”的概念,信息熵(information entropy)是离散随机事件的出现概率,是衡量样本集合纯度最常用的一种指标,与热力学的熵有密切的关系。
通常,一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之就大。这种不确定性即为熵。
熵的函数需要满足以下两个条件:不确定性函数f是概率P的单调递降函数;两个独立符号所产生的不确定性应等于各自不确定性之和,即f(P1,P2)=f(P1)+f(P2),这称为可加性。同时满足这两个条件的函数f是对数函数,即
假定当前样本集合D中第(k)类样本所占的比例为pk(k=1,2,….,|y|),D的信息熵定义为
式中对数一般取2为底,单位为比特。但是,也可以取其它对数底,采用其它相应的单位,它们间可用换底公式换算。 Ent(D)的值越小,D的纯度越高。Ent(D)最小值为0,最大值为
对于样本的属性a有V种可能的选择{
其中
用周老师的西瓜数据集2.0进行分析,在样本中正例占为
先用颜色这一属性进行分类进行分类,得到三个属性值
根据公式可计算出属性“色泽”的信息增益为:
同理我们可以求出其他属性的信息增熵:
从中可以看出纹理的信息增熵最大,所以用它来做为对根节点的划分属性较为适合,划分后如下图:
分成三个支点:
对于支点
从结果中可以看出根蒂,脐部,触感的信息增熵一样,可任选其一对
这是ID3决策树对西瓜数据2.0进行划分的结果。
- 浅谈决策树
- 浅谈决策树
- spark 决策树浅谈
- 浅谈决策树c4.5
- 浅谈决策树算法以及matlab实现ID3算法
- 浅谈决策树算法以及matlab实现ID3算法
- CART决策树算法浅谈(回归树部分)
- CART决策树算法浅谈(分类树部分)
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 决策树
- 初始化过程
- Server.MapPath和Request.MapPath()的用法
- 国内优秀npm镜像推荐及使用
- Scala入门之函数编程
- Javascript模板引擎mustache.js详解
- 浅谈决策树
- 怎样去掉 字符串 中的空格
- Codeforces-519C-A and B and Team Training
- 深入理解图优化与g2o:图优化篇
- HDFS的小文件合并上传
- WordPress数据库连接错误问题解决
- 电路设计_LED压降常识
- Mac OS下配置 ADB环境变量
- ZH_入手树莓派的新潮玩法.md