数据挖掘C4.5读后感

来源:互联网 发布:数字走势图制作软件 编辑:程序博客网 时间:2024/04/29 22:33

其实还没研究完 先来简单的记录下 自己的认识吧

 

 

C4.5主要是用来进行分类 从ID3算法演变来

 

下面主要将一下ID3算法:

 

首先是一个集合S,集合中的数据有着各种属性,对这些数据采用决策树进行分类。ID3算法就是解决如何选择属性的问题,采用的方法是熵的方法,就是说对于一个节点 计算它的熵 用它的熵减去它的第一级子集的熵,得到的数据 美其名曰 信息增益 结果就是这个量越大 就选作属性。一直递归的进行下去 结束条件1、这个分支上所有属性都包含了2、节点的熵计算为0(也就是叶节点) 上述条件满足一个就可以了。

 

由这个过程也可以看出 ID3算法的数据应该是离散型的 核心就是一个求决策树的公式,至于C4.5明天继续研究

 

原创粉丝点击