高维数据特征降维技术学习

来源：互联网发布：seo零基础入门编辑：程序博客网时间：2024/06/05 15:06

原文地址：高维数据特征降维技术学习作者：新技术笔记

　　特征降维（feature dimensionreduction）是一个从初始高维特征集合中选出低维特征集合，以便根据一定的评估准则最优化缩小特征空间的过程，通常是机器学习的预处理步骤。当面临高维数据时，特征降维对于机器学习任务非常必要，通过降维有效地消除无关和冗余特征，提高挖掘任务的效率，改善预测精确性等学习性能，增强学习结果的易理解性。

1、降维概述
　　通常，高维特征集合存在以下几方面问题：
　　•大量的特征；
　　•许多与给定任务无关的特征，即存在许多与类别仅有微弱相关度的特征；
　　•许多对于给定任务冗余的特征，如特征相互之间存在强烈的相关度；
　　•噪声数据。
　　特征降维，可以分为特征抽取和特征选择两种方式。特征抽取涉及到语义上的分析，而目前自然语言语义处理技术尚不发达，用特征抽取方法进行特征降维的效果并不显著。相比之下，特征选择选出的特征集合是原始特征集的子集，所以更易实现，方法也更加多样，典型的有DF、IG、MI、CHI。

（1）特征抽取
　　特征抽取也被称为特征重参数化（featurereparameterization）。由于自然语言中存在大量的多义词、同义词现象，特征集无法生成一个最优的特征空间对数据内容进行描述。特征抽取通过对原始特征空间进行变换，重新生成一个维数更小、各维之间更加独立的特征空间。特征抽取方法主要有如下几种：

（2）特征选择
　　特征选择是从特征集T={t1, … ,ts}中选择一个真子集T’={t1’, …,ts’}，满足（s’<<s）。其中：s为原始特征集的大小；s’是选择后的特征集大小。特征选择不改变原始特征空间的性质，只是从原始特征空间中选择一部分重要的特征，组成一个新的低维空间。

（3）特征降维策略
　　从策略上可以将特征降维划分为局部降维和全局降维。局部降维是指对每个类别选择若干个最能识别它的特征作为新特征，有所有这些新特征构成新的特征空间，从而达到对原始特征空间的降维。全局降维是指选择对整个分类最有用的若干个特征构成新的特征空间，从而达到对原特征空间的降维。对于不同的降维方法，可采用的降维策略可能不同，但是通过特殊处理（如带权均值、最大值）后，特征对特定类地重要性也可以转换成特征对整个分类的重要性。

2、降维模型
　　现有的特征降维模型大致分为过滤模型、包裹模型及其他改进模型。

（1）过滤模型
　　过滤模型（filtermodel）的基本思想是：根据训练数据的一般特性进行特征选择，在特征选择的过程中并不包含任何学习算法。早期的过滤算法依赖于标记数据，通过分析标记数据来决定哪些特征在区分分类标签时最有用，因此传统过滤模型只适用于有指导的学习。随着应用领域的扩展，在很多数据挖掘应用中无法获得类标签，因此将传统过滤模型集合聚类思想，如层次聚类、分割聚类、光谱聚类、矩阵分解算法，可以产生许多新的适合无指导学习的过滤模型。基于过滤模型的算法主要有两类：特征权重和子集搜索。这两类算法的不同之处在于是对单个特征进行评价还是对整个特征子集进行评价。
　　特征权重算法对每个特征指定一个权值，并按照它与目标概念的相关度对其进行排序，如果一个特征的相关度权值大于某个阈值，则认为该特征优秀，并且选择该特征。该算法缺点在于：他们可以捕获特征与目标概念间的相关性，却不能发现特征间的冗余性。而经验证明除了无关特征对学习任务的影响，冗余特征同样影响学习算法的速度和准确性，也应尽可能消除冗余特征。Relief算法是一个比较著名的特征权重类方法。
子集搜索算法通过在一定的度量标准指导下遍历候选特征子集，对每个子集进行优劣评价，当搜索停止时即可选出最优（或近似最优）的特征子集。现有子集搜索算法的时间复杂度至少为维度的平方，所以在处理高维数据时不具有强可量测性。
　　考虑到各种过滤方法的优劣，可以使用多层过滤模型分别消除无关特征和冗余特征。

（2）包裹模型
　　包裹模型（wrappermodel）最初思想为依据一个有指导的归纳算法，搜索最佳特征子集；对于每一个新的特征子集，包裹模型都需要学习一个假设（或一个分类器、包裹器），即需要元学习者遍历特征集合空间，并利用该学习算法的性能来评价和决定选择哪些特征。目前研究中包裹模型的搜索过程主要依据一个聚类算法。包裹模型包含聚类过程反馈，将聚类执行效果量化为性能指数，通过最大化该性能指数更好地找出哪些更适合预定学习算法的特征，具有较高的学习性能。

（3）混合模型
　　过滤模型和包裹模型的发展都经历了一个由有指导学习向无指导学习转变的过程，因此现代过滤模型与包裹模型的根本区别在于对学习算法的使用方式。过滤模型首先利用数据的内在特性（如词频、词性）而不是聚类算法对原始特征集进行初步选择；最后将选出的特征子集用于聚类。反之，包裹模型将聚类算法与特征搜索、选择过程相结合，将无指导的学习算法应用于每个候选特征子集，利用聚类结果对特征子集进行评价，最终形成优化特征子集。
　　混合模型着眼于使用一种特殊的算法将过滤模型与包裹模型相结合以获得尽可能好的性能，并且使得时间复杂度与过滤算法相近。

3、特征评价标准
　　如何评价待选特征与降维目标的相关度是特征降维的关键问题之一。从评测对象上可以分为单边度量与双边度量两种。单边度量只考虑正特征，即最能标示其成员资格的特征，而忽略负特征即最能标示其非成员资格的特征，如相关性系数CC和几率评测OR。双边度量将正负特征结合考虑，如信息增益IG和卡方检测CHI（Chi-square）。事实上，因为负特征在数据中的出现，较大程度地说明了该数据的无关性，所以负特征有助于确定消除无关数据，在不平衡的数据集合中对负特征的分析显得更为重要。
　　在特征子集的优化选择过程中，使用不同的特征评价准则可能会得出不同的结果。常用的评价度量方法分为一致性度量和相关性度量两个大类。
　　特征评价标准本身并不受特征子集选取策略的影响，即所有度量方法可以用于有指导的特征选取，也适用于无指导的特征选取。其区别在于：有指导的选择过程度量特征子集在分类中的能力；无指导的选择过程度量特征子集在聚类中的能力。

（1）一致性度量
一致性度量致力于找出能够与完整特征集分类效果一致的最小特征子集，也可以将一致性用相对的不一致性来解释。如果得到的不一致性为0，则认为一致性为100%。

（2）相关性度量
　　相关度也被称为规范化相关性、相关系数、皮尔森关联、余弦相似度，被广泛用于描述模式分类和信号处理问题中两个向量之间的相似性。相关性度量基于以下思想：如果一个特征与某个类的关联性高到（或可预言到）使该特征与此类相关，同时此特征与其他相关特征的关联性不能达到任何相关特征都可以预言该特征的水平，则认为这个特征是对该分类任务的优秀特征。可以将国际上常用的相关度度量分为传统的线性相关性度量和基于信息理论的相关性度量。

·传统线性相关性度量
　　在早期的研究中通常使用距离函数度量变量的相似性，例如欧氏距离和马氏距离。马氏距离相比欧式距离有很多优点。它不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关，由标准化数据和中心化数据（即原始数据与均值之差）计算出的两点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性干扰，它的缺点是夸大了变化微小的变量的作用。
　　线性相关系数又叫简单相关系数，一般用r表示，用来度量定量变量间的线性相关关系。将线性相关系数依据具体应用环境作适当校正可产生各种新的评价准则，有效提高特征选取的准确率，如最小平方回归误差、最大信息压缩指数。
　　选择线性相关性作为分类中的特征评价准则有以下优点：有助于消除与类别相关度接近0的特征，即消除无关特征；有助于减小选中特征的冗余度，消除冗余特征。线性相关的缺点在于需要所有特征具有数值表示才能进行计算，并且不能捕获现实世界中非线性的关联。在简单相关系数的基础上又发展出了复相关系数、偏相关系数、典型相关系数等相关性度量方法。复相关又叫多重相关系数，是指因变量与多个自变量之间的相关关系，如某种商品的需求量与预期价格水平、职工收入水平等现象之间呈现多重相关关系。偏相关系数又被称为部分相关系数，反映校正其他变量后某一变量与另一变量的相关关系。偏相关系数的假设检验等同于偏回归系数的t检验；复相关系数的假设检验等同于回归方程的方差分析。典型相关系数是指先对原来各组变量进行主成分分析，得到新的线性无关的综合指标，再用两组之间综合指标的直线相关系数来研究原两组变量间的相关关系。

·基于信息理论的相关性度量
　　信息论是一门用数理统计方法研究信息度量、传递和变换规律的科学。基于信息理论的相关性度量关键在于评测从特征中获取的信息，如果从特征X中获取的信息比特征Y多，则可以认为特征X优于Y。目前使用最广泛的信息度量可以分为熵度量和互信息两大类。
　　熵用于测量随机变量的不确定性；度量的是消息中所含的信息量，其中去除了由消息固有结构所决定的部分，如语言结构的冗余性以及语言中字母、词的使用频度等统计特性。X熵值的变化反映了给定Y的条件下X的额外信息，并将其称为信息增益IG:IG(X|Y)= H(X) -H(X|Y)。如果IG(X|Y)>IG(Z|Y)，则认为特征Y与X之间的相关度高于特征Y与Z的相关度。信息增益对于任意的两个变量都具有对称性，然而信息增益计算会偏向于具有更多取值的特征，因此必须对其值进行规范化来保证信息增益具有可比性。FCBF算法使用对称不确定性SU补偿信息增益对多值特征的偏差，并将信息增益取值规范至[0,1]。SU(X,Y) = 2[IG(X|Y) / (H(X) +H(Y))]。SU值为1说明任一特征取值的信息都能完全预测其他特征值；若值为0，说明特征X与Y相互独立。使用SU度量的FCBF能够同时消除无关特征和冗余特征，算法时间复杂度为O(mnlogn)。其中：n为数据集中的特征数；m为数据集中的实例数。基于熵的度量方法也可以应用于评测连续性特征间的相关度，但要求提前将特征取值进行适当离散化。
　　互信息是另一种常用的信息度量，用于评测随机变量间的依赖性，它总是具有对称、非负性，互信息的值越大说明变量间的依赖性越强。互信息取值为0当且仅当变量间相互独立。MIFS算法利用变量间的互信息在有指导的神经网络学习中进行特征选择，并且使用贪心策略进行搜索。

4、总结
　　总的来说，特征降维模型，可以分为过滤模型和包裹模型两类，其区别在于是基于特征的内在特性还是基于学习算法的性能对特征进行选取。特征子集的搜索过程和选用的特征评价标准是特征降维的两个关键问题，根据具体应用环境制定适当的搜索策略与一定特征度量准则相结合能够有效地去除无关特征、冗余特征，实现高效的特征降维，提高机器学习的效率。随着自然语言处理技术的发展，以语义分析为基础的特征抽取技术必将得到进一步发展；如何捕捉现实世界中非线性的关联，将特征判别从距离空间转向相关度度量空间依然是机器学习的研究热点。特征降维的应用领域也从传统的静态文本分类、聚类转向对半结构化网络资源的数据挖掘，对音频、视频等多媒体资源的机器学习，以及对生物基因特征的分析识别等。

5、说明
　　本文都是摘抄自胡洁的论文《高维数据特征降维研究综述》，笔者没有完全融会贯通，只能先抄录了。版权都是归原作者。
　　转载请注明出处：互联网旁观者～黄言之 http://blog.sina.com.cn/netreview/

0 0