Feature Selection: A Data Perspective --阅读笔记1 特征选择的概述

来源:互联网 发布:其言兹若人之俦乎的其 编辑:程序博客网 时间:2024/06/06 00:25

  • 摘要
  • INTRODUCTION
    • Traditional Categorization of Feature Selection Algorithms
    • Feature Selection Algorithms from a Data Perspective
    • Organization of the Survey
    • Notations

论文连接

摘要

特征选择作为一种数据预处理策略已经被证明在为各种数据挖掘和机器学习问题准备数据(特别是高维数据)方面是有效和高效的。

特征选择的目标包括:构建更简单,更易于理解的模型,提高数据挖掘性能,准备清晰,可理解的数据。大数据近期的激增为特色选择带来了一些重大的挑战和机遇。

在这次调查中,提供了关于特征选择研究最新进展的综合和结构化概述。受当前大数据时代的挑战和机遇的驱动,我们从数据角度重新审视了特征选择研究,并回顾了传统数据,结构化数据,异构数据流数据的代表性特征选择算法。

从方法论角度来看,为了强调传统数据中大多数现有特征选择算法的差异性和相似性,我们将其分为四大类:基于相似性,基于信息论,基于稀疏学习基于统计的方法。

为了促进这个社区的研究,作者还提供了一个开放源代码的特征选择库,其中包含了最受欢迎的选择算法(http://featureselection.asu.edu/)。此外,我们还使用了一个样例选择算法来评估特征选择算法。在调查结束之前,我们将讨论一些未来研究中需要更多关注的未解决的问题和挑战。

INTRODUCTION

我们现在处于大数据时代,大量高维数据变得越来越多,比如社交媒体,医疗保健,生物信息学和在线教育等。数据挖掘的快速发展给有效和有效的数据管理带来了挑战。 应用数据挖掘和机器学习技术来自动从各种数据中发现知识是可取的。

当数据挖掘和机器学习算法应用于高维数据时,一个关键问题就是维数灾难。它指的是数据在高维空间中变得更稀疏的现象,对低维空间设计的算法产生了负面影响。此外,由于数量庞大,学习模型会导致性能下降,导致数据分析的内存需求和计算成本大大增加。

降低维度是解决上述问题的最有力的工具之一。它主要可以分为两个主要部分:

  • 特征提取:将原始的高维特征投影到低维的新特征空间。新构建的特征空间通常是原始特征的线性或非线性组合。
  • 特征选择:直接选择相关特征子集进行模型构建。

特征提取和特征选择都具有提高学习性能,提高计算效率,减少内存容量,建立更好的通用化模型的优点。因此,它们都是有效的降维技术。

一方面,对于原始输入数据不包含给定学习算法可理解的任何特征的许多应用,特征提取是优选的。另一方面,随着特征提取创建一组新特征,进一步的分析是有问题的,因为我们不能保留这些特征的物理意义。相反,通过保留一些原始特征,特征选择保持了原始特征的物理意义,并且给模型提供了更好的可读性和可解释性。因此,在文本挖掘和遗传分析等应用中,特征选择往往是首选。应该指出的是,在某些情况下,即使特征维数通常不是很高,但特征提取/选择仍然起着重要的作用,如提高学习性能,防止过度填充以及降低计算成本。

真实世界的数据包含许多不相关、冗余和嘈杂的特征。 通过特征选择去除这些特征可以减少存储和计算成本,同时避免信息的显着损失或学习性能的下降。

这里写图片描述
例如,在图1(a)中,特征f1是能够区分两个类别(集群)的相关特征。 然而,给定特征f1,图1(b)中的特征f2是冗余的,因为f2与f1强相关。 在图1(c)中,特征f3是一个不相关的特征,因为它根本不能分开两个类(集群)。 因此,去掉f2和f3不会对学习成绩产生负面影响。

Traditional Categorization of Feature Selection Algorithms

1.1.1 Supervision Perspective.
根据监督(如类标签在分类问题)的可用性,特征选择可以大致分类为:

  • 监督(Supervised):有足够的标签信息可用;
  • 无监督(Unsupervised):没有任何标签信息可用;
  • 半监督(Semi-supervised):有有限数量的标签数据可用。

监督特征选择通常是为分类或回归问题而设计的。它旨在选择能够区分不同类别样本(分类)或近似回归目标(回归)的特征子集。通过监督信息,特征相关性通常通过与类标签的相关性来评估。这些相关性主要取决于所选择的特征:在将数据分解为训练集和测试集之后,基于由监督特征选择选择的特征子集训练分类器或回归模型。可分为:
-

  • 过滤法(Filter methods):特征选择阶段可以独立于学习算法;
  • 封装法(Wrapper methods):迭代地利用分类器或回归模型的学习性能来评估迄今为止选择的特征;
  • 嵌入法(Embedded methods):利用学习算法的内在结构将特征选择嵌入到底层模型中。

最后,训练好的分类器或回归模型预测具有选定特征的测试集中的未见样本的类别标签或回归目标。

无监督的特征选择通常是为聚类问题设计的。与监督特征选择不同,无监督特征选择通常使用特征选择阶段中可用的所有实例。可分为:

  • 过滤法:特征选择阶段可以独立于无监督的学习算法;
  • 封装法:依靠学习算法来迭代地提高所选特征的质量;
  • 嵌入法:将特征选择阶段嵌入到无监督学习算法中。
    在特征选择阶段之后,它使用标准的聚类算法。

当有足够的标签信息可用时,监督特征选择工作,而无监督特征选择算法不需要任何类别标签。但是,在许多实际应用中,我们通常只有有限数量的标签数据。因此,希望通过利用标记和未标记数据样本来开发半监督方法。

1.1.2. Selection Strategy Perspective.
根据不同的选择策略,特征选择方法可以被广泛地分为封装法、过滤法嵌入法

封装法依赖于预定义学习算法的预测性能来评估所选特征的质量。给定一个特定的学习算法,一个典型的包装方法执行两个步骤:

  1. 搜索一个特征子集;
  2. 评估选择的特征。
  3. 它重复1和2,直到满足一些停止标准。

特征集搜索组件首先生成一个特征子集,然后学习算法就像黑匣子一样根据学习性能评估这些特征的质量。

例如,整个过程迭代地工作,直到达到最高的学习性能或者获得所需特征的期望数量。然后,返回最高学习性能的特征子集作为选定特征返回。

不幸的是,封装法的一个已知问题是d特征的搜索空间是2d,当d非常大时这是不切实际的。因此,不同的搜索策略如序列搜索,爬山搜索,最佳搜索,分支搜索和遗传算法被提出来产生局部最佳学习表现。然而,高维数据集的搜索空间仍然非常巨大。因此,包装方法在实践中很少使用。

过滤法独立于任何学习算法。但是,针对指导特征选择阶段的具体算法的不足之处,选取的特征对于目标学习算法可能并不是最优的。典型的过滤法由两个步骤组成:

  • 第一步,特征重要性根据一些特征评估标准进行排序。特征重要性评估过程可以是单变量也可以是多变量。在单变量方案中,不管其他特征如何,每个特征都是单独排列的,而多元方案则以批量方式排列多个特征。
  • 第二步,排除了低排序的特征。在过去的几十年里,提出了不同的过滤方法评估标准。一些代表性标准包括区分样本的特征判别能力、特征相关、互信息、保留数据流形结构的特征,并以此为基础构建原始数据。

嵌入法将特征选择嵌入到模型学习中。是封装法和过滤法之间的折中方案,因此,它们继承了包装和过滤方法的优点:(1)包括与学习算法的交互; (2)迭代地评估特征集的重要性。

使用最广泛的嵌入法是正则化模型,其目标是通过最小化配合错误和强制性能最小的同时来融合学习模型。之后,将正则化模型和选定的特征集作为最终结果返回。

值得注意的是,一些文献从选择策略的角度将特征选择方法分为四类,还包括混合特征选择方法。混合法(Hybrid methods)可以被认为是多个特征选择算法的组合(例如,包装,过滤和嵌入)。主要目标是解决许多现有特征选择算法的不稳定性和摄动问题。例如,对于小尺寸的高维数据,训练数据的小扰动可能导致完全不同的特征选择结果。通过将来自不同方法的多个选择的特征子集聚合在一起,结果更加健壮,因此所选特征的可信度得到增强。

Feature Selection Algorithms from a Data Perspective

流式数据和功能在现实应用中变得越来越流行。它对传统的特征选择算法(被设计成具有固定数据样本和特征的数据集)提出了挑战。

在Twitter中的例子中,像帖子这样的新数据和像俚语这样的新特征一直是用户生成的。当新数据或新特征到达时,应用传统的批模式特征选择算法从头开始寻找相关特征是不切实际的。而且,数据量可能太大而无法加载到内存中。在许多情况下,需要对数据进行单次扫描,因为进一步的扫描要么昂贵,要么不切实际。鉴于上述原因,以流媒体方式应用特征选择以动态地维护一组相关特征是有吸引力的。

现有的大多数特征选择算法都是为了处理单个数据源的任务而设计的,并且总是假设数据是独立的,同一分布的(i.i.d.),但是数据可以从多个不同的应用中获得。例如,在社交媒体中,数据来自文本,图像,标签,视频等异构资源。另外,链接的数据无处不在,并以各种形式呈现,如用户-帖子关系和用户-用户关系。多个数据源的可用性带来了前所未有的机会,因为我们可以利用共享的内在特征和相关性来找到更多相关的特征。然而,挑战也是明确提出的。例如,通过链接信息,广泛采用的i.i.d.在大多数学习算法中的假设不成立。如何正确利用链接信息进行特征选择仍然是一个具有挑战性的问题。

特征也可以展示某些类型的结构。特征之间的一些众所周知的结构是组,树结构。当进行特征选择时,如果不考虑特征结构,则可能无法捕捉到内在的相关性,因此所选特征可能不适合于目标应用。结合先前的特征结构知识可以帮助选择相关特征来大大提高学习性能。

上述原因促使从不同角度研究特征选择算法。在这次调查中,我们从数据的角度重新审视了特征选择算法。分类如图2所示。
这里写图片描述

数据由静态数据流数据组成。对于静态数据,可以将其分组为常规数据异构数据

  • 在传统的数据中,特征可以是平滑的或者具有一些固有的结构。传统的特征选择算法被提出来处理这些特征被认为是独立的特征。过去的几十年中见证了数百种特征选择算法。基于其技术特点,我们提出将它们分为基于相似性,基于信息理论,基于稀疏学习和基于统计的方法四大类。应该指出的是,这种分类只涉及过滤法和嵌入法,而封装法则被排除在外。排除封装法的原因是它们在计算上很昂贵,通常用于特定的应用程序。关于这四个类别的更多细节将在稍后介绍。我们提出其他方法不能被纳入这四个类别,如混合方法,基于深度学习的方法和基于重建的方法。当特征表达某些结构时,特定的特征选择算法更为合适。
  • 数据可以是异构的,这样数据可以来自多个来源并且可以被链接。因此,我们也展示了新的特征选择算法如何处理这些情况。
  • 在流媒体设置中,数据采集按顺序排列,其中有大量的数据,其特点是只有一个数据才有相应的选择算法。类似地,在正交设置中,特征也可以动态生成。流式特征选择算法被设计用于确定是否应该接受新添加的特征并移除现有但过时的特征。

Organization of the Survey

  • 传统数据的传统特征选择算法:
    • 基于相似性的特征选择方法
    • 基于信息理论的特征选择方法
    • 基于特征选择的稀疏学习方法
    • 基于统计的特征选择方法
    • 其他方法
  • 结构化特征的特征选择算法:
    • 具有组结构特征的特征选择算法
    • 具有树结构特征的特征选择算法
    • 具有图结构特征的特征选择算法
  • 异构数据的特征选择算法:
    • 具有连接数据的特征选择算法
    • 多源特征选择算法
    • 多视图特征选择算法
  • 流数据的特征选择算法
    • 带有数据流的特征选择算法
    • 带有特征流的特征选择算法
  • 性能评估
  • 开放的问题和挑战
  • 调查总结

Notations

这里写图片描述

阅读全文
0 0