论文笔记3《基于信息增益和最小距离分类的决策树改进算法》
来源:互联网 发布:java技术就业培训 编辑:程序博客网 时间:2024/05/18 13:47
2013年《科学技术与工程》期刊
部分摘要:改进后的算法针对决策树在分类过程中遇到的训练集中存在相同属性集,但属于不同类别的实例的情况,不再采用多数表决法判断叶结点的类别,而是采用基于信息增益的属性约简和最小距离分类的新方法进行类别的判断。
算法改进:
算法描述:
(i) 先构造ID3决策树,但在构造的过程中对于具有相同属性集属于不同类别的实例,暂时用null标注它的类别;
(ii) 对决策树中所有类别为的叶结点,调用基于信息增益的最小距离分类器对它们进行重新分类。
实验结果:
数据:
从图中可以看出树叶1-6都是纯叶结点,树叶7不是纯叶结点。训练集中实例8,9属于树叶7,而实例8和实例9具有相同属性集,但属于不同类别, 下面将采用基于信息增益的最小距离分类来决定树叶的类别。
(1) 计算属性的信息增益并将信息增益归一化处理后结果为:
InfoGain(weather)=0.56
InfoGain(temperature)=0.11
InfoGain(humidity)=0.31
InfoGain(windy)=0.02
(2) 就算叶子7和其他叶节点的距离:
树叶7的中心结点K的各属性值为:(weather=rain,temperature=cool,humidity=normal,windy=yes,tennis=null);
树叶6的中心结点K的各属性值为:(weather=rain,temperature=hot,humidity=high,windy=no,tennis=no);
树叶5的中心结点K的各属性值为:(weather=rain,temperature=warm,humidity=high,windy=no,tennis=yes);
树叶4的中心结点K的各属性值为:(weather=rain,temperature=warm,humidity=high,windy=yes,tennis=no);
…其他同理
则距离D(K,)==0.663;D(K,)=0.663;D(K,)=0.648;
…
通过比较可知与最近的应该是,因此树叶7的类别应该与树叶4一样为no。
- 论文笔记3《基于信息增益和最小距离分类的决策树改进算法》
- 论文笔记1《基于ID3决策树改进算法的客户流失预测分析》
- 机器学习笔记之信息熵、信息增益和决策树(ID3算法)
- 基于信息增益的决策树归纳的Python实现【CD4.5算法】
- 决策树ID3算法中对于属性信息增益的研究
- 决策树中熵和信息增益的计算
- 通俗理解决策树算法中的信息增益
- 决策树--信息增益,信息增益比,Geni指数的理解
- 转:了解信息增益和决策树
- 利用决策树分类时划分数据集的特征的选取:信息增益
- 决策树(信息增益)的java实现
- 论文笔记2《决策树分类优化算法的研究----(上)》
- 论文笔记2《决策树分类优化算法的研究---(下)》
- 决策树中熵和信息增益的计算,构造决策树 ID3
- 决策树之信息增益
- 信息增益与决策树
- 决策树与信息增益
- 决策树之信息增益
- 解决Unity 中WWW加载 AssetBundle---中文路径
- 链表用java实现简单单链表linkedlist
- Android的网络与通信
- Android 结合源码和实例理解消息机制
- Xcode 7 缺少 *.dylib库的解决方法
- 论文笔记3《基于信息增益和最小距离分类的决策树改进算法》
- mysql master slave 配置
- ObjectAnimator 安卓属性动画简单入门
- 64位windows7 C#.net引用VC++ com组件错误80040154的解决方法
- 【网络流】:poj2987,Firing
- 【Codeforces Round 335 (Div 2)E】【计算几何-凸包 线性规划 三分凸包上最优点】Freelancer's Dreams 二维属性 充最少的钱变得满足要求 [计算几何-凸包模
- Django学习笔记<三>
- 安装Samba,实现Ubuntu12.04和win7的文件共享
- JavaScript—函数的定义和调用