决策树和随机森林

来源:互联网 发布:三维汽车设计软件 编辑:程序博客网 时间:2024/04/28 00:15

决策树->随机森林;
随机森林的难点是如何建立决策树;
根节点ROOT:1,2,3。。。N个样本,给定规则(选取特征)给ROOT进行分类,假设分成C_1,C_2,如果是连续直接分类,如果是连续,那么给定阈值进行分类,递归形成的树,即是决策树,多个决策树即形成随机森林;
决策树:CART:classification and regression tree;
决策树:训练速度快,使用场景多;
熵是度量随机变量不确定性的量,越小随机性越小,越大表示随机性越大,也可表示其蕴含的信息量;
事件发生的概率越小,其蕴含的信息量越大,熵越大;
香浓定理:信息熵,H=ni=1pilogpi
H(X),H(Y),H(X,Y)

条件熵:
H(Y|X)=H(X,Y)-H(X)=x,yp(x,y)logp(y|x)=xp(x)H(Y|X=x)

给定均值后:均匀分布熵最大;
给定均值和方差后:正态分布熵最大;

相对熵:互熵,交叉熵,鉴别信息,kullback熵,kullback-leible散度;
用来度量两个随机变量的距离;

p(x),q(x)是X中取值的两个概率分布,则p对q的相对熵是:
D(p||q)=xp(x)logp(x)q(x)=Ep(x)logp(x)q(x)

互信息:两个随机变量X,Y的互信息,定义为X,Y的连个分布和独立分布乘积的相对熵;
I(X,Y)=D(P(X,Y)||P(X)P(Y))=x,yp(x,y)logp(x,y)p(x)p(y)

H(Y)-I(X,Y)=H(Y|X)
I(X,Y)=H(X)+H(Y)-H(X,Y)

H(X|Y)<=H(X);

原创粉丝点击