数据挖掘之数据归约

来源:互联网 发布:杭州 政府网站 建站 编辑:程序博客网 时间:2024/04/29 08:13
  1. 对于真正意义上的大型数据集,在应用数据挖掘技术之前,还需要执行一个中间的、额外的步骤—数据归约,虽然大型数据集可能得到最佳的挖掘结果,但是未必能获得比小型数据集更好的数据挖掘结果,
    2.维归约,主要问题是不降低成果质量的前提下,可否舍弃一些已准备和已预处理的数据
    3.数据的描述以及特征的挑选、归约或转换可能是决定数据挖掘质量的最重要问题,在实践中,特征的数量可达到数百个之多,如果只有上百条样本可用于分析,就需要进行恰当的维归约,以挖掘出可靠的模型或使其具有实用性,,另一方面,由高纬度引起的数据超负,会使一些数据挖掘算法不可用,唯一的方法是再进行维归约
    4.数据归约过程的3个基本操作是删除列、删除行、减少列中值的数量(平整特征)
    在准备数据挖掘时,要执行标准的数据归约操作,需要分析一下参数:A:计算时间 B:预测/描述精度 C: 数据挖掘模型的描述
    5.数据归约算法的推荐特性
    可测性
    应用已归约的数据集可精确的确定近似结果的质量
    可识别性
    在应用数据挖掘程序之前,数据归约算法运行期间,很容易确定近似结果的质量
    单一性
    算法往往是迭代的,计算结果的质量是时间和输入数据质量的一个非递减的函数
    一致性
    计算结果的质量和计算时间及输入数据质量有关
    收益递减
    方案在计算的早期能获得大的改进,但随时间递减
    可中断性
    算法可以随时停止,并给出答案
    优先权
    算法可以暂停并以最小的开销重新开始
    6.特征归约
    高维数据可能包含许多不相关的干扰信息,显著降低了数据挖掘过程的性能,甚至一流的数据挖掘算法也不能处理大量弱相关特征和冗余特征,通常归因于“维数灾”或者因为非相关特征降低了信噪比,另外,维数非常高时,许多算法都无法执行
    数据质量和已归约数据集性能的改善,不仅与干扰数据和污染数据有关,也与非相关、相关、冗余数据有关,收集具备响应特征的数据通常不仅仅用于数据挖掘,因此,仅处理相关特征可以提高效率,基本上,应选择与数据挖掘应用相关的特征,以获得最佳性能,且测量和处理的工作量最小,特征归约处理的结果是:更少的数据,以便数据挖掘算法更快的学习、更高的数据挖掘处理精度,以便更好的从数据中归纳出模型、简单的数据挖掘处理结果,以方便理解和使用、更少的特征,以便在下一轮数据收集中,去除冗余和不相关的特征,减少工作量
    7.维归约技术作为数据预处理的一个步骤,这个过程可以识别适合于初始数据的低维表达式,减少维度,可以提高数据分析的计算效率和精确度,推荐使用的技术可分为有人监管和无人监管的技术
    有人监管的算法需要一个带输出类标签信息的训练集,以便学习基于某个条件的低维表达,无人监管的方法把初始数据投射到一个新的低维空间上,但没有使用标签信息,维归约技术可以把已有的特征转换为一组新的归约特征,或者选择已有特征的一个子集,因此,要生成一组归约特征,有两个标准任务:
    特征选择,分析人员可选择初始数据集中的一个特征子集,通过手动或通过一些自动化程序进行
    特征选择方法应用于3个概念框架模型,过滤模型、封装模型、嵌入模型这三个基本框架并不是把学习算法和特征的评估与选择组合起来
    在过滤模型中,特征的选择是一个预处理步骤,不需要优化某个数据挖掘技术的性能,为此,通常使用某个搜索方法进行评估,以选择出能最大化评估效果的特征子集,刚开始时,特征非常多,进行彻底的搜索通常是不可能的,因此需要适用不同的方法进行各种试探式搜索
    在封装模型中,封装的方法在选择特征时,是封装所选的学习算法,根据数据挖掘技术的学习技能,评估每个候选的特征子集,主要缺点是其计算的复杂性
    在嵌入模型中,嵌入式方法把特征搜索和学习算法组合到一个优化的问题表述中,样本和维数非常大时,通常应选择过滤方法,因为过滤算法的计算效率很高,且不偏向任何学习方法
    特征提取/替换,一些数据转换对数据挖掘方法的结果有着惊人的影响,从这个意义上将,在数据挖掘结果的质量方法,特征的合成/转换是一个更有决定性的因素
    8.特征选择,也称变量选择、特征归约、特征选择或变量子集选择,这个技术会从数据中删除大多数非相关特征和冗余特征,选择出相关特征的一个子集,以建立强壮的学习模型
    特征选择的目标:提高数据挖掘模型的性能 提供更快、性价比更高的学习过程、更好的理解生成数据的基本过程
    特征选择算法一般分为两类:特征排列算法、子集选择算法
    特征排列算法根据特定的标准排列所有的特征,去除没有获得足够分数的特征
    子集选择算法会在所有的特征集中搜索最优子集,该子集中的特征是没有排序,不同的特征选择方法可以得出不同的归约数据集
    9.特征选择的目标是找出特征的一个子集,此子集的数据挖掘性能比得上整个特征集
    如果归约任务是生成一个子集,一种可能就是从空集开始,然后从初始的特征集中选择最相关的特征并写入——所谓的自下向上方法,这种方法基于一些试探式的特征评估标准,想法,自上向下方法从原始特征的完整集合开始,然后选择所选的试探式评论尺度,逐个去除不相关的特征,最优方法的其他近似方式:
    只检查有前景的特征子集、用计算简单的距离度量值替换错误的度量值、只根据大量数据的子集选择特征,但随后的数据挖掘步骤将应用于整个数据集
    如果一个特征描述了不同种类的实体,则可以检查不同种类的样本,用特征的方差进行特征的均值进行标准化,然后比较不同种类的标准化值,如果觉知相差很大,此特征的重要性就增加,因为他可以区分两类样本,如果均值相差不大,那么重要性就减弱
    基于相关条件的算法展示了特征排列的一个近似方式,先考虑结果y的预测,使用的是皮尔逊系数
    10.特征提取
    特征转换技术的目标是将数据的维度减少到一个较小的数字,该维度是厨师维度的线性或非线性组合,因此,有两种主要的维归约方法:线性和非线性
    特征提取额的其他方法包括因子分析(FA)、独立成分分析(ICA)、多维缩放(MDS),流行的距离度量值包括欧氏距离、曼哈顿距离、最大范数
    PCA和度量MDS都是线性维归约的简单方法,MDS的一个替代方法是Fastmap,这是计算效率很高的算法,Isomap是非线性维归约的一个强大技术,主要基于图形
  2. Relief算法
    Relief算法是一个基于特征加权的特征选择算法,要点是为每个特征计算一个等级分数,表示每个特征区分邻近样本的能力,相关特征的等级分数大,而非相关特征的等级分数小,该算法会随机选择大小为m的样本自己,其中m是一个用户定义的参数,Relief算法会搜索他的两个最近的邻近点,一个邻近点与X类型相同,称为最近击点,另一个邻近点与X的类别不同,称为最近闪点
    Relief算法是可以给特征空间很大、样本数很大的实际问题评估特征的几个算法之一,Relief算法也可以抑制早点,不受特征相互作用的影响,但是Relief算法无助于删除冗余特征
    11.特征排列的熵变量
    一种基于熵变量的无监督特征选择或排列方法是一个相当简单的技术,但如果特征非常多,其复杂性就会增加,
    12.主成分分析
    PCA也称为奇异值分解(SVD),PCA的方法是将以向量样本表示的初始数据集转换为一个带有导出维度的新向量样本集,转换的目标是将不同样本中的信息集中在少量的维度中
    13.值归约
    减少已知特征的离散值数目是基于数据归约阶段的第二套技术,即特征离散化技术,特征离散化技术是将连续型特征的值离散为少量的区间,每个区间映射到一个离散符号,这种技术的好处在于简化了数据的描述,数据和数据挖掘的最终结果易于理解
    14.值归约的方法的着急要问题是给箱子找出最好的分割点,丽丽上,确定分割点时不能不考虑其他特征,在很多数据挖掘应用中,每个特征的试探性决策独立的给出了合适的结果,值归约问题可表述为选择k个箱的优化问题:给出箱的数量k,分配箱中的值,使这些值到箱子均值或均值的平均距离最小
    15.特征离散化:ChiMerge
    ChiMerge是一种自动化的离散算法,统计分析已知特征的多个区间的质量,此算法根据输出样本的分类来确定两个相邻区间的数据分布的相似性
    16.案例归约
    初始数据集中最大和最重要的维度是案例或样本的数目,换句话说就是数据表中的行数,因此可以通过取样进行案例的归约
    取样的方法:
    普通用途的取样方法、特殊领域的取样方法
    系统化取样时最简单的取样技术
    随机取样是一种初始数据集中的每个样本都有相同机会入选子集的方法,这种方法有两种变式:不回放随机取样,回放随机取样
    随机取样的两种基本形式:
    增量取样
    子集的逐步增大进行数据挖掘,然后观察性能的走向
    平均取样
    对很多随机样本自己上建立起来的方案进行均化或表决
    分层取样
    分层取样技术将整个数据集分割为不相交的子集或层,层的取样都彼此独立
    逆取样
    当数据集中的一个特征出现概率极小,且即使很大的样本子集也不能为特征值的估计提供足够的信息时,可选用逆取样技术,此时,取样时动态的,他从最小的样本自己开始取样,知道满足特征值的必须数量的条件为止