文章标题

来源:互联网 发布:51自学网单片机 编辑:程序博客网 时间:2024/05/21 16:22

决策树

优点:计算复杂度不高,输出结果容易理解,对中间值的缺失不敏感,可以处理不相关特征数据。
缺点:可能会产生过度匹配问题。
适用数据类型:数值型和标称型。
决策树的一般流程
- 收集数据:
- 准备数据:树构造算法只适用于标称型数据,因此数据值必须离散化。
- 分析数据:树构造完成后,检查图形是否符合预期。
- 训练算法:构造树的数据结构。
- 测试算法:使用经验树计算错误率。
- 使用算法:

决策树的划分

信息增益
信息熵(information entropy)是度量样本集合纯度最常用的一种指标。假设当前样本集合为D,第k类样本所占比例为p_k,则D的信息熵定义如下:

0 0