深度学习基础-决策树

来源:互联网 发布:淘宝助理怎么批量改价 编辑:程序博客网 时间:2024/05/20 18:01

理论

一:机器学习中分类和预测算法的评估

   1.准确率

   2.速度

   3.强壮性

   4.可规模性

   5.可解释性

二:什么是决策树/判定树(decision tree)

    判定树是一个类似于流程图的树结构,其中,每个内部节点标识在一个属性上的测试,每个分支代表

一个属性输出,而每个树节点代表类或类分布,树的最顶层是根节点


2.机器学习中分类方法中的一个重要算法:

    构造决策树的基本算法

    

熵(entropy)概念:

信息和抽象,如何度量?

一条信息的信息量大小和他的不确定性有直接的关系,要搞清楚一件非常不确定的事情,或者

使我们一无所知的事情,需要了解大量信息==》信息量度量就等于不确定性的多少

例子:猜世界杯冠军,假如一无所知,猜多少次?

每个队夺冠的几率不是相等的

比特(bit)来衡量信息的多少


变量的不确定性越大,熵就越大


决策树归纳算法(ID3)

选择属性判断节点

信息获取量(information Gain) Gain(A)=Info(A)-infor_A(D)

通过A来作为节点分类获取了多少信息

其他算法:c4.5 CART

共同点:都是贪心算法,自上而下

区别:属性选择度量方法不同

如何 处理连续型变脸的属性?

树剪枝叶(避免overfitting)

先剪枝

后剪枝

决策树的优点,缺点:处理连续变量不好,类别较多时,错误增加的比较快,可规模性一般


实践

原创粉丝点击