机器学习之特征选择

来源：互联网发布：三类人员网络继续教育编辑：程序博客网时间：2024/05/21 09:34

机器学习过程中，特征选择是避免维数灾难和减低学习难度的有效途径。特征选择的过程，即为选择对当前学习任务有用的属性（相关特征）和去除无用属性（冗余特征）的过程。那么，如何选择有用的特征子集以及如何评价相对好的特征子集是特征选择的关键步骤。

1、子集搜索

如果训练样本有n个特征，那么特征子集将有2n种可能性。子集搜索常用的方法有前向搜索方法和后向搜索方法。以下是前向搜索方法的算法：

Forward Search
Input：training set D，features set；
Output：features subset F；
start with F=∅;
Repeat{
(1)for i=1,2,⋯,n.Try adding feature i to F.
evaluate F∪{i};
(2)Set F=F∪{best feature found in (1) }
Output features subset.

以上搜索方式称为前向搜索，在（1）中evaluate的过程我们可以通过交叉验证的方式进行，也可以使用后面提到的子集评价方法直接选择。后向搜索指从完整的特征集开始，每次尝试去掉一个无关特征，以逐渐减少特征的策略进行特征搜索。

2、子集评价

我们通常通过信息增益，信息增益比和基尼指数等指标衡量特征对训练集分类的好坏程度。这里先介绍熵的概念。熵在信息论和统计学中度量随机变量的不确定性。设X是一个取有限个值的离散随机变量，其概率分布为

P (X = x i) = p i

其中

i=1,2,⋯,n.则随机变量

X的熵定义为：

H (X) = - \sum i = 1 n p i log p i

条件熵：设有随机变量(X,Y)，其联合概率分布为

P (X = x i, Y = y i) = p i j

其中

i=1,2,⋯,n;j=1,2,⋯,m.条件熵

H(Y|X)表示已知随机变量

X的条件下随机变量

Y的不确定性。随机变量

X给定条件下随机变量

Y的条件熵定义为

X给定条件下

Y的条件概率分布的熵对

X的数学期望：

H (Y | X) = \sum i = 1 n p i H (Y | X = x i)

其中，

pi=P(X=xi),i=1,2,⋯,n.

信息增益：表示得知特征X的信息而使得Y的信息的不确定性减少的程度。特征A对训练数据集D的信息增益g(D,A)定义为集合D的经验熵H(D)与特征A给定条件下D的条件熵H(D|A)之差，即：

g (D, A) = H (D) - H (D | A)

一般地，熵

H(Y)与条件熵

H(Y|X)之差称为互信息。

以信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题，为避免这种情况，信息论中引入信息增益比对这一问题进行校正。

信息增益比：特征A对训练数据集D的信息增益比gR(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵HA(D)之比，即：

g R (D, A) = g ( D , A ) H A ( D )

其中

HA(D)=−∑ni=1|Di|Dlog2|Di|D,

n是特征

A取值的个数。

基尼指数：分类问题中，假设有K个类，样本点属于第k类的概率为pk，则概率分布的基尼指数定义为

G i n i (p) = \sum k = 1 K p k 1 - p k = 1 - \sum k = 1 K p 2 k

3、特征选择方法

常用的特征选择方法有过滤式选择（filter）、包裹式选择（wrapper）以及嵌入式选择（embedding），可参见周志华老师的《机器学习》，以上内容我只是为了coding决策树所总结。

0 0

机器学习之 特征选择

1、子集搜索

2、子集评价

3、特征选择方法

机器学习之特征选择