特征选择之支持向量机递归特征消除（SVM-RFE）

来源：互联网发布：专业八字算命软件编辑：程序博客网时间：2024/06/06 01:11

支持向量机递归特征消除(下文简称SVM-RFE)是由Guyon等人在对癌症分类时提出来的，最初只能对两类数据进行特征提取。它是一种基于Embedded方法。

支持向量机

支持向量机广泛用于模式识别，机器学习等领域，SVM采用结构风险最小化原则，同时最小化经验误差，以此提高学习的性能。详细的SVM介绍请看我的另一篇博文《线性支持向量机》

在这简单介绍一下SVM。
设训练集{(xi,yi)}Ni=1，其中xi∈RD,yi∈{+1,−1}，xi为第i个样本，N为样本量，D为样本特征数。SVM寻找最优的分类超平面ω⋅x+b=0。
SVM需要求解的优化问题为：

m i n 1 2 | | ω | | 2 + C Σ N i = 1 ξ i s . t . y i (ω \cdot x i + b) \geq 1 - ξ i, i = 1, 2, . . ., N ξ i \geq 0, i = 1, 2, . . ., N

而原始问题可以转化为对偶问题：

m i n 1 2 Σ N i = 1 Σ N j = 1 α i α j y i y j (x i \cdot x j) - Σ N i = 1 α i s . t . Σ N i = 1 y i α i = 0 0 \leq α i \leq C, i = 1, 2, . . ., N

其中，

αi为拉格朗日乘子。
最后

ω的解为：

ω = Σ N i = 1 α i y i x i

两分类的SVM-RFE算法

SVM-RFE是一个基于SVM的最大间隔原理的序列后向选择算法。它通过模型训练样本，然后对每个特征进行得分进行排序，去掉最小特征得分的特征，然后用剩余的特征再次训练模型，进行下一次迭代，最后选出需要的特征数。而特征i的排序准则得分定义为：

c i = w 2 i

两分类SVM-RFE算法：
输入：训练样本

{(xi,yi)}Ni=1,yi∈{+1,−1}
输出：特征排序集R
1)初始化原始特征集合S={1，2，…,D}，特征排序集R=[]
2)循环以下过程直至S=[]

获取带候选特征集合的训练样本；

用式

min12ΣNi=1ΣNj=1αiαjyiyj(xi⋅xj)−ΣNi=1αi训练SVM分类器，得到

ω；

用式

ci=w2i,k=1,2,...,|S|计算排序准则得分;

找出排序得分最小的特征

p=argminkck;

更新特征集R=[p,R]；

在S中去除此特征：S=S/p。

多分类的SVM-RFE算法

多分类的SVM-RFE算法其实和两分类的SVM-RFE算法类似，只不过在处理多分类时，把类别进行两两配对，其中一类为正类，另一类为负类，这样需训练N(N−1)2个分类器，这就是一对一（One vs. One,简称OvO）的多分类拆分策略（详细请看周志华的《机器学习》的第三章线性模型的多分类学习），这样就变成了多个两分类问题（当然，也可以使用一对其余（OvR）），每个两类问题用一个SVM-RFE进行特征选择，利用多个SVM-RFE获得多个排序准则得分，然后把多个排序准则得分相加后得到排序准则总分，以此作为特征剔除的依据，每次迭代消去最小特征，直到所有特征都被删除。
多分类SVM-RFE算法：
输入：训练样本集{(xi,vi)}Ni=1,vi∈{1,2,...,l},l为类别数
输出：特征排序集R
1）初始化原始特征集合S={1，2，…,D}，特征排序集R=[]
2）生成l(l−1)2个训练样本:
在训练样本{(xi,vi)}Ni=1中找出不同类别的两两组合得到最后的训练样本：
Xj=
{(xi,yi)}N1+Nj+1i=1,j=1,2,...,l;当vi=1时,yi=1,当vi=j+1,yi=−1
{(xi,yi)}N2+Nj−l+3i=1,j=l,...,2l−3;当vi=2时,yi=1,当vi=j−l+3,yi=−1
⋯⋯⋯⋯⋯⋯⋯⋯
{(xi,yi)}Nl−1+Nli=1,j=l(l−1)2−1,...,l(l−1)2;当vi=l−1时,yi=1,当vi=l,yi=−1
3）循环一下过程直至S=[]:
获取用l个训练子样本Xj(j=1,2,...,l(l−1)/2)；
分别用Xj训练SVM，分别得到ωj(j=1,2,...,l)；
计算排序准则得分ck=Σjω2jk(k=1,2,...,|S|)；
找出排序准则得分最小的特征p=argminkck；
更新特征集R=[p,R]；
在S中去除此特征S=S/p.

参考
【Isabelle Guyon, Jason Weston et.al】Gene Selection for Cancer Classification using Support Vector Machines
【黄晓娟，张莉】改进的多类支持向量机递归特征消除在癌症多分类中的应用
【周志华】机器学习

0 0