C4.5算法的流程和程序分析

来源:互联网 发布:虹吸壶 知乎 编辑:程序博客网 时间:2024/06/07 17:27

C4.5算法是一种较成熟的异常检测算法,如果学习这个算法,只需要学习怎么使用它既可。



C4.5程序分析

1.     使用方法

1)C45 –f golf (golf.data为数据文件名 ),生成golf.tree文件,即只创建树。

2)C45 –u golf(golf.data为数据文件名),除生成golf.tree文件,还使用evaluate方法进行完整性检测,生成正确率和错误率,并且生成预测类

2.     算法流程

1)输入接口

获取相应的一些参数

2)  参数

-f :为FileName赋值,以进行读文件操作

-u :除了有-f的所有功能外,又增加了为UNSEENS赋值的功能,目的是对读取的数据进行检测并预测。

       3)输出接口

 

 

          Evaluate(CMInfo,Saved)方法在besttree.c文件中……………

         GetData_unabled(”.unlabled”),其作用是集外测试正确率,”.unlabled”为自行创建的数据集。(因为C45是狂揉的,及时输入和输出没有任何关系,决策树一样可以给出很不错的决策正确率,尤其是集内测试正确率)

 

 

 

总结:对使用者来说,最重要的是知道C4.5算法的输入数据格式,假设所要研究的项目的名称是a,则对于C4.5训练而言就之至少需要a.nam和a.dat,其中a.name是输入数据的格式,而a.dat则是严格按照这种格式所生成的输入数据文件。a.unlabled文件格式和a.dat完全一样,但理论上数据应该是不一样的,因为一个是训练数据,一个是用于测试开放正确率。

 

0 0
原创粉丝点击