决策树算法

来源:互联网 发布:磁盘擦除软件 比较 编辑:程序博客网 时间:2024/05/22 03:29

1、熵及条件熵

1.1熵

  • 熵(entropy)代表随机变量的不确定性,熵越大随机变量的不确定性就越大,就越混乱,自然状态下向着熵值增加的方向发展。

熵值大->不确定性大(p值越小)->混乱程度大.

H(X)=E(I(X))

I(x)=log p(x)

H(X)=xXp(x)logp(x)(1.1)

1、熵能看作随机变量的信息量的期望
2、X代表整个随机变量,x代表某个具体的值

1.2条件熵

  • 条件熵定义

    H(Y|X)=xXp(x)H(Y|X=x)(1.2.1)

  • 条件熵的三个推论

    H(Y|X)=xX,yYp(x,y)log p(y|x)(1.2.2)

    H(Y|X)=H(Y,X)H(X)(1.2.3)

    H(X,Y)=H(Y|X)+H(X)=H(X|Y)+H(Y)(1.2.4)

  • 推论的证明
    H(Y|X)========xXp(x)H(Y|X=x)xXp(x)yYH(y|x)xXp(x)yYp(y|x)log p(y|x)xX,yYp(x,y)log p(y|x)xX,yYp(x,y)log p(y,x)p(x)xX,yYp(x,y)log p(y,x)xX,yYp(x,y)log p(x)xX,yYp(x,y)log p(y,x)xXp(x)log p(x)H(Y,X)H(X)(1.2.5)(1.2.6)(1.2.7)(1.2.8)(1.2.9)(1.2.10)(1.2.11)

    • 1.2.6推导1.2.7利用如下:
      xXp(x)yYp(y|x)=xX,yYp(y,x)

    • 1.2.9推导1.2.10利用如下:
      xXyYp(x,y)=xXp(x)

1.3、互信息

  • 互信息的定义:
    I(X;Y)=xXyYp(x,y)log(p(x,y)p(x)p(y))(1.3.1)
  • 互信息的推论:
    I(X;Y)====H(X)H(X|Y)H(Y)H(Y|X)H(X)+H(Y)H(X,Y)H(X,Y)H(X|Y)H(Y|X)
  • 推论的证明:

    I(X;Y)=====xXyYp(x,y)log(p(x,y)p(x)p(y))xXyYp(x,y)log(p(x|y)p(y)p(x)p(y))xXyYp(x,y)log(p(x|y)p(x))xXyYp(x,y)log p(x|y)xXp(x)log p(x)H(X)H(X|Y)

    互信息代表两者之间的关联性,关联性越强者互信息越大

  • 定义度量方式d(X,Y)

    d(X,Y)=H(X,Y)I(X;Y)

  • 或者将其正则化,成为D(X,Y)
    D(X,Y)=d(X,Y)H(X,Y)

2、信息增益

ADg(D,A):

g(D,A)=H(D)H(D|A)(2.1)

H(D|A)AD

H(D)=k=1K|Ck||D|log|Ck||D|(2.2)

H(D|A)=i=1n|Di||D|H(Di)=i=1n|Di||D|(k=1K|Dik|Dilog|Dik|Di)(2.3)

  • D|D|KCk,|Ck|Ck
  • Ana1,...an,ADnD1,....,Dn,|Di|Di
  • DiCkDik

3、信息增益比

gR(D,A)=g(D,A)HA(D)(3.1)

HA(D)=i=1n|Di||D|log|Di||D|(3.2)

4、CART(classification and regression)

4.1、基尼指数

对于给定的样本集合D,其基尼指数为:

Gini(D)=1k=1K(|Ck||D|)2(4.1.1)

Gini(D,A)=i=1K|Di||D|Gini(Di)=i=1n|Di||D|1k=1K(|Dik||Di|)2(4.1.2)

如果是二叉树,则同一特征在不同子树中可进行不同标准的多次分裂。

4.2、回归树(Regression Tree)

4.2.1 最小二乘回归树生成算法

  • 1js,

minj,sminc1xiR1(j,s)(yic1)2+minc2xiR2(j,s)(yic2)2

j(X)js使(j,s)
XjxjsR1c1,R1yc1ri=yic1 xiR1(j,s)
Xj xj>sR2c2,R2yc2ri=yic2 xiR2(j,s)
js


  • (yic1)2,yic2)2
  • L(y,f(x))=12(yf(x))2
  • L(y,f(x))=|yf(x)|
  • huber 损失:
    huber loss:L(y,f(x))=12(yf(x))2δ(|yf(x)|δ/2)|yf(x)|<=δ|yf(x)|>δ
  • 2(j,s)

    R1(j,s)={x|xjs}

    R2(j,s)={x|xj>s}

    cm^=1NmxiRm(j,s)yi , m=1,2

  • 3、继续对两个子区域调用步骤1,2直至满足停止条件

  • 4MR1,R2,...,RM

    f(x)=m=1Mcm^I (xRm)

这里写图片描述

参考文献

  • http://ccckmit.wikidot.com/st:mutualinformation
1 0
原创粉丝点击