决策树和随机森林

来源：互联网发布：三维汽车设计软件编辑：程序博客网时间：2024/04/28 00:15

决策树->随机森林；
随机森林的难点是如何建立决策树；
根节点ROOT：1，2，3。。。N个样本，给定规则（选取特征）给ROOT进行分类，假设分成C_1，C_2,如果是连续直接分类，如果是连续，那么给定阈值进行分类，递归形成的树，即是决策树，多个决策树即形成随机森林；
决策树：CART:classification and regression tree；
决策树：训练速度快，使用场景多；
熵是度量随机变量不确定性的量，越小随机性越小，越大表示随机性越大，也可表示其蕴含的信息量；
事件发生的概率越小，其蕴含的信息量越大，熵越大；
香浓定理：信息熵，H=−∑ni=1pi∗logpi
H(X),H(Y),H(X,Y)

条件熵：
H(Y|X)=H(X,Y)-H(X)=−∑x,yp(x,y)∗logp(y|x)=∑xp(x)H(Y|X=x)

给定均值后：均匀分布熵最大；
给定均值和方差后：正态分布熵最大；

相对熵：互熵，交叉熵，鉴别信息，kullback熵，kullback-leible散度；
用来度量两个随机变量的距离；

p(x),q(x)是X中取值的两个概率分布，则p对q的相对熵是：
D(p||q)=∑xp(x)logp(x)q(x)=Ep(x)logp(x)q(x)

互信息：两个随机变量X,Y的互信息，定义为X,Y的连个分布和独立分布乘积的相对熵；
I(X,Y)=D(P(X,Y)||P(X)P(Y))=∑x,yp(x,y)logp(x,y)p(x)∗p(y)

H(Y)-I(X,Y)=H(Y|X)
I(X,Y)=H(X)+H(Y)-H(X,Y)

H(X|Y)<=H(X);

阅读全文

0 0