决策树算法

来源：互联网发布：磁盘擦除软件比较编辑：程序博客网时间：2024/05/22 03:29

１、熵及条件熵

1.1熵

熵（entropy）代表随机变量的不确定性，熵越大随机变量的不确定性就越大，就越混乱，自然状态下向着熵值增加的方向发展。

熵值大->不确定性大（p值越小）->混乱程度大.

H (X) = E (I (X))

I (x) = - l o g p (x)

H (X) = - \sum x \in X p (x) l o g p (x) (1.1)

1、熵能看作随机变量的信息量的期望
2、X代表整个随机变量，x代表某个具体的值

1.2条件熵

条件熵定义
$H (Y | X) = - \sum x \in X p (x) H (Y | X = x) (1.2.1)$
条件熵的三个推论
$H (Y | X) = - \sum x \in X, y \in Y p (x, y) l o g p (y | x) (1.2.2)$
$H (Y | X) = H (Y, X) - H (X) (1.2.3)$
$H (X, Y) = H (Y | X) + H (X) = H (X | Y) + H (Y) (1.2.4)$
推论的证明
H(Y|X)========−∑x∈Xp(x)H(Y|X=x)−∑x∈Xp(x)∑y∈YH(y|x)−∑x∈Xp(x)∑y∈Yp(y|x)log p(y|x)−∑x∈X,y∈Yp(x,y)log p(y|x)−∑x∈X,y∈Yp(x,y)log p(y,x)p(x)−⎡⎣∑x∈X,y∈Yp(x,y)log p(y,x)−∑x∈X,y∈Yp(x,y)log p(x)⎤⎦−⎡⎣∑x∈X,y∈Yp(x,y)log p(y,x)−∑x∈Xp(x)log p(x)⎤⎦H(Y,X)−H(X)(1.2.5)(1.2.6)(1.2.7)(1.2.8)(1.2.9)(1.2.10)(1.2.11)
- 1.2.6推导1.2.7利用如下：
  $\sum x \in X p (x) \sum y \in Y p (y | x) = \sum x \in X, y \in Y p (y, x)$
- 1.2.9推导1.2.10利用如下：
  $\sum x \in X \sum y \in Y p (x, y) = \sum x \in X p (x)$

1.3、互信息

互信息的定义：
$I (X; Y) = \sum x \in X \sum y \in Y p (x, y) l o g (p ( x , y ) p ( x ) \cdot p ( y )) (1.3.1)$
互信息的推论：
$I (X; Y) = = = = H (X) - H (X | Y) H (Y) - H (Y | X) H (X) + H (Y) - H (X, Y) H (X, Y) - H (X | Y) - H (Y | X)$
推论的证明：
$I (X; Y) = = = = = \sum x \in X \sum y \in Y p (x, y) l o g (p ( x , y ) p ( x ) \cdot p ( y )) \sum x \in X \sum y \in Y p (x, y) l o g (p ( x | y ) \cdot p ( y ) p ( x ) \cdot p ( y )) \sum x \in X \sum y \in Y p (x, y) l o g (p ( x | y ) p ( x )) \sum x \in X \sum y \in Y p (x, y) l o g p (x | y) - \sum x \in X p (x) l o g p (x) H (X) - H (X | Y)$

互信息代表两者之间的关联性，关联性越强者互信息越大
定义度量方式d(X,Y)代表两个随机变量的距离
$d (X, Y) = H (X, Y) - I (X; Y)$
或者将其正则化，成为D(X,Y)
$D (X, Y) = d ( X , Y ) H ( X , Y )$

2、信息增益

特征A对训练数据集D的信息增益g(D,A):

g (D, A) = H (D) - H (D | A) (2.1)

信息增益大的特征具有更强的分类能力，因为信息增益大，所以H(D|A)就小，就是在特征A的条件下D的分类不确定性小，混乱程度低。

H (D) = - \sum k = 1 K | C k | | D | l o g | C k | | D | (2.2)

H (D | A) = \sum i = 1 n | D i | | D | H (D i) = \sum i = 1 n | D i | | D | (- \sum k = 1 K | D i k | D i l o g | D i k | D i) (2.3)

训练数据集为D，|D|为其样本容量，设有K个类Ck,|Ck|为属于类Ck的样本数。
设特征A有n个不同的取值a1,...an,根据A的取值将D划分为n个子集D1,....,Dn,|Di|为Di样本个数。
子集Di中属于类Ck中的样本集合为Dik

3、信息增益比

g R (D, A) = g ( D , A ) H A ( D ) (3.1)

H A (D) = - \sum i = 1 n | D i | | D | l o g | D i | | D | (3.2)

4、CART（classification and regression）

4.1、基尼指数

对于给定的样本集合D，其基尼指数为：

G i n i (D) = 1 - \sum k = 1 K (| C k | | D |) 2 (4.1.1)

G i n i (D, A) = \sum i = 1 K | D i | | D | G i n i (D i) = \sum i = 1 n | D i | | D | ⎛ ⎝ 1 - \sum k = 1 K (| D i k | | D i |) 2 ⎞ ⎠ (4.1.2)

如果是二叉树，则同一特征在不同子树中可进行不同标准的多次分裂。

4.2、回归树（Regression Tree）

4.2.1 最小二乘回归树生成算法

1、选择最优切分变量j与切分点s,求解

m i n j, s ⎡ ⎣ m i n c 1 \sum x i \in R 1 (j, s) (y i - c 1) 2 + m i n c 2 \sum x i \in R 2 (j, s) (y i - c 2) 2 ⎤ ⎦

遍历变量j(自变量X的维度)，对固定的切分变量j扫描切分点s，选择使上式达到最小值的(j,s)
在自变量X的第j维度，xj⩽s的数据为R1空间，模型的拟合值为c1,残差为R1空间的y值与c1值的差，即：ri=yi−c1 xi∈R1(j,s)
在自变量X的第j维度， xj>s的数据为R2空间，模型的拟合值为c2,残差为R2空间的y值与c2值的差，即：ri=yi−c2 xi∈R2(j,s)
此式为双重循环，首先在自变量的维度j，然后在此维度下寻找最合适的s。

(yi−c1)2,yi−c2)2为损失函数。

平方损失：L(y,f(x))=12(y−f(x))2即残差的平方和，所以为最小二次回归树

绝对值损失L(y,f(x))=|y−f(x)|

huber 损失： $h u b e r l o s s : L (y, f (x)) = ⎧ ⎩ ⎨ 1 2 (y - f (x)) 2 δ (| y - f (x) | - δ / 2) | y - f (x) | < = δ | y - f (x) | > δ$

2、用选定的(j,s)，划分区域并决定相应的输出值：
$R 1 (j, s) = {x | x j ⩽ s}$
$R 2 (j, s) = {x | x j > s}$
$c m^= 1 N m \sum x i \in R m (j, s) y i, m = 1, 2$
3、继续对两个子区域调用步骤1，2直至满足停止条件
4、将输入空间划分为M个区域R1,R2,...,RM，生成决策树：
$f (x) = \sum m = 1 M c m^I (x \in R m)$

参考文献

http://ccckmit.wikidot.com/st:mutualinformation

1 0