CD,决策树

来源:互联网 发布:多益网络 m.duoyi.com 编辑:程序博客网 时间:2024/05/21 17:28
算法的核心问题:
1,按照什么样的次序来选择变量(属性)?
    ID3:信息增益
        ID3弊端:信息增益的方法倾向于首先选择因字数较多的变量
    C4.5: 信息增益率
        
           
            以个数为4,6,4的元祖为例
            1,计算分裂信息参数:
           
            2,计算信息增益:
                  Grain=0.029(计算过程略)
            3,信息增益率=信息增益/分裂信息参数
2,最佳分离点(连续的情形)在哪儿?
    去中间值然后寻找导致最大信息增益的值
0 0