机器学习:特征选择之 Filter :Relief方法

来源:互联网 发布:注册淘宝 编辑:程序博客网 时间:2024/06/06 02:55

Relief特征选择方法是一种filter方法。filter方法的过程如下:
这里写图片描述
下面结合论文[1]谈下Relief算法。该算法的流程如下图:
这里写图片描述
其中第一个参数S是训练集,第二个m是S的大小,第三个t为相关判定阈值,0<=t<=1.
1、Relief认为什么样的特征是相关的那,换句话说什么样的特征对类别具有区分性那?
以二分类为例,如果一个特征对区分0/1是有帮助的,那么该特征的分布应该不是随机的。举个不恰当的例子,假设特征f1在类别1中出现频率很大,而在类别0中却很少出现,那么f1对分类是具有贡献的。
回到Relief算法,对实例xi中的某一特征fi而言,xi中的fi应该与Near-hit的fi相近,而与Near-miss中的fi相远。[1]从统计学的角度详细说明了Relief的特征相关性选择依据。
2、Relief的优点与不足
优点:Relief对噪音不敏感,训练速度比穷举搜索Focus[2]特征选择要快。
缺点:Relief不能处理特征冗余,数据稀疏性性对降低算法的性能

最近较忙,简单介绍下,具体参考论文[1]

[1]The Feature Selection Problem:Traditional Methods and a New Algorithm ,Kenji Kira
[2] Science Society.[Almuallim & Dietterich 19911 Almuallim, H. &Dietterich, T. G., Learning With Many Irrelevant Features, Proceedings of the Ninth National

1 0