论文笔记2《决策树分类优化算法的研究----(上)》

来源:互联网 发布:流量挂机赚钱软件 编辑:程序博客网 时间:2024/06/17 00:49

《硕士论文》 2010

部分摘要:ID3算法虽然很经典,但也有美中不足之处:第一,算法中使用了对数计算,而且计算过程复杂;第二,取值较多的属性被选择的机率比较大,即多值偏向问题。为了解决的这些问题,本文引入了泰勒公式和麦克劳林公式,对原算法进行化简,对于算法偏向于选取有较多取值的属性的缺点,用一个与属性取值个数相关的函数对简化后的属性信息增益进行修正。最后,用JAVA语言实现了改进前后的算法,并且在不同规模的数据集上进行仿真实验,把改进后算法分别与算法、算法进行比较分析,验证了改进后算法在构建决策树时所需的时间及分类准确率两个方面都优于其他两个算法。

算法改进:

(1)对于计算复杂度的改进对于算法的运算中多次要用到对数,通过引入泰勒公式和麦克劳林公式对算法中的熵、信息增益的计算进行化简,去除了对数运算,从而提高了算法的建树速度。

(2)多值偏向问题:在公式Gain(S,A)=E(S)-E(S,A)中,对于每一个节点来说E(S)都是一个定值,故可以选取属性的信息熵E(S,A)作为测试属性的比较标准。这样,在计算属性的信息熵时使用一个与属性取值个数相关的函数来调整属性的信息熵,以调整后新的信息熵作为标准来选取分裂属性。

具体展开:






































0 0
原创粉丝点击