决策树算法
来源:互联网 发布:磁盘擦除软件 比较 编辑:程序博客网 时间:2024/05/22 03:29
1、熵及条件熵
1.1熵
- 熵(entropy)代表随机变量的不确定性,熵越大随机变量的不确定性就越大,就越混乱,自然状态下向着熵值增加的方向发展。
熵值大->不确定性大(p值越小)->混乱程度大.
1、熵能看作随机变量的信息量的期望
2、X代表整个随机变量,x代表某个具体的值
1.2条件熵
条件熵定义
H(Y|X)=−∑x∈Xp(x)H(Y|X=x)(1.2.1) 条件熵的三个推论
H(Y|X)=−∑x∈X,y∈Yp(x,y)log p(y|x)(1.2.2) H(Y|X)=H(Y,X)−H(X)(1.2.3) H(X,Y)=H(Y|X)+H(X)=H(X|Y)+H(Y)(1.2.4) - 推论的证明
H(Y|X)========−∑x∈Xp(x)H(Y|X=x)−∑x∈Xp(x)∑y∈YH(y|x)−∑x∈Xp(x)∑y∈Yp(y|x)log p(y|x)−∑x∈X,y∈Yp(x,y)log p(y|x)−∑x∈X,y∈Yp(x,y)log p(y,x)p(x)−⎡⎣∑x∈X,y∈Yp(x,y)log p(y,x)−∑x∈X,y∈Yp(x,y)log p(x)⎤⎦−⎡⎣∑x∈X,y∈Yp(x,y)log p(y,x)−∑x∈Xp(x)log p(x)⎤⎦H(Y,X)−H(X)(1.2.5)(1.2.6)(1.2.7)(1.2.8)(1.2.9)(1.2.10)(1.2.11) - 1.2.6推导1.2.7利用如下:
∑x∈Xp(x)∑y∈Yp(y|x)=∑x∈X,y∈Yp(y,x) - 1.2.9推导1.2.10利用如下:
∑x∈X∑y∈Yp(x,y)=∑x∈Xp(x)
- 1.2.6推导1.2.7利用如下:
1.3、互信息
- 互信息的定义:
I(X;Y)=∑x∈X∑y∈Yp(x,y)log(p(x,y)p(x)⋅p(y))(1.3.1) - 互信息的推论:
I(X;Y)====H(X)−H(X|Y)H(Y)−H(Y|X)H(X)+H(Y)−H(X,Y)H(X,Y)−H(X|Y)−H(Y|X) 推论的证明:
I(X;Y)=====∑x∈X∑y∈Yp(x,y)log(p(x,y)p(x)⋅p(y))∑x∈X∑y∈Yp(x,y)log(p(x|y)⋅p(y)p(x)⋅p(y))∑x∈X∑y∈Yp(x,y)log(p(x|y)p(x))∑x∈X∑y∈Yp(x,y)log p(x|y)−∑x∈Xp(x)log p(x)H(X)−H(X|Y) 互信息代表两者之间的关联性,关联性越强者互信息越大
定义度量方式
d(X,Y)代表两个随机变量的距离 d(X,Y)=H(X,Y)−I(X;Y) - 或者将其正则化,成为D(X,Y)
D(X,Y)=d(X,Y)H(X,Y)
2、信息增益
信息增益大的特征具有更强的分类能力,因为信息增益大,所以H(D|A)就小,就是在特征A的条件下D的分类不确定性小,混乱程度低。
训练数据集为D,|D|为其样本容量,设有K个类Ck,|Ck|为属于类Ck的样本数。 设特征A有n个不同的取值a1,...an,根据A的取值将D划分为n个子集D1,....,Dn,|Di|为Di样本个数。 子集Di中属于类Ck中的样本集合为Dik
3、信息增益比
4、CART(classification and regression)
4.1、基尼指数
对于给定的样本集合D,其基尼指数为:
如果是二叉树,则同一特征在不同子树中可进行不同标准的多次分裂。
4.2、回归树(Regression Tree)
4.2.1 最小二乘回归树生成算法
1、选择最优切分变量j与切分点s,求解
遍历变量j(自变量X的维度),对固定的切分变量j扫描切分点s,选择使上式达到最小值的(j,s)
在自变量X的第j维度,xj⩽s的数据为R1空间,模型的拟合值为c1,残差为R1空间的y值与c1值的差,即:ri=yi−c1 xi∈R1(j,s)
在自变量X的第j维度, xj>s的数据为R2空间,模型的拟合值为c2,残差为R2空间的y值与c2值的差,即:ri=yi−c2 xi∈R2(j,s)
此式为双重循环,首先在自变量的维度j,然后在此维度下寻找最合适的s。
(yi−c1)2,yi−c2)2为损失函数。 平方损失:L(y,f(x))=12(y−f(x))2即残差的平方和,所以为最小二次回归树 绝对值损失L(y,f(x))=|y−f(x)| - huber 损失:
huber loss:L(y,f(x))=⎧⎩⎨12(y−f(x))2δ(|y−f(x)|−δ/2)|y−f(x)|<=δ|y−f(x)|>δ
2、用选定的(j,s),划分区域并决定相应的输出值: R1(j,s)={x|xj⩽s} R2(j,s)={x|xj>s} cm^=1Nm∑xi∈Rm(j,s)yi , m=1,2 3、继续对两个子区域调用步骤1,2直至满足停止条件
4、将输入空间划分为M个区域R1,R2,...,RM,生成决策树: f(x)=∑m=1Mcm^I (x∈Rm)
参考文献
- http://ccckmit.wikidot.com/st:mutualinformation
1 0
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树算法
- 决策树 算法
- 决策树算法
- 决策树算法
- 解决_CRT_SECURE_NO_WARNINGS 警告
- ajax 跨域问题
- 二进制流图像png8透明背景压缩
- 21、Java入门—反射之获取方法信息
- jQuery绑定事件的四种方式
- 决策树算法
- 探究MVP
- LitJson学习
- OK6410内核移植
- js 替换scriptb标签中的src,并且加载执行
- javadoc时候乱码-编码 GBK 的不可映射字符
- 单页面应用
- iis建站
- php导入scv文件