数据挖掘学习笔记-数据篇

来源：互联网发布：有域名了怎么建立网站编辑：程序博客网时间：2024/05/19 16:36

1、数据的预处理

聚集（aggregation）:将两个或多个对象合并成单个对象

优势：1、数据规约导致较小的数据集需要较小的内存和处理时间，因此可以使用开销更大的数据挖掘算法

2、高层的数据视图较于低级的视图，起到了范围或标度的转换作用

3、对象或属性群的行为通常比单个对象或者属性具有较小的变异性更加稳定

抽样：抽样时一种选择数据对象子集进行分析的常用方法。可以压缩数据量从而使用数据量更大的数据挖掘算法。

抽样方法：

简单随机抽样（simple random sampling）：选取任何特定项的概率相等。其中又分为：无放回抽样-每个选中项立即从构成总体的所有对象集合中删除；有放回抽样-对象被选用时不从总体删除。

分层抽样(stratified sampling)

渐进抽样（progressive sampling）

维归约：通过创建新属性，将一些旧属性合并在一起来降低数据集合的维度。通过选择旧属性的子集得到新属性，这种堆归约叫特征自己选择或者特征选择。

特征子集选择：将所有可能的特征子集作为感兴趣的数据挖掘算法的输入，然后选取产生最好的结果的子集。

特征选择的方法：

嵌入方法：特征选择作为数据挖掘算法的一部分

过滤方法：在数据挖掘任务之前进行特征选择

包装方法：将目标数据挖掘算法作为黑盒

特征创建：由原来的属性创建新的属性集，更有效的捕捉数据集中的重要信息

1、特征提取：由原始数据创建新的特征集

2、映射数据到新的空间：使用一种完全不同的时间挖掘数据可能揭示出重要和有趣的特征

3、特征构造：原始数据集的特征具有必要的信息，但是其形式不适合数据挖掘算法。在这种情况下由原始的一个多个特征构造新特征。

离散化和二元化：

1、二元化：如果有m个分类值，则将每个原始值唯一的赋予区间【0，m-1】中的一个整数，然后将这些整数转换成二进制数，n=[logm]个

变量转换：变量所有值的变化

0 0