数据预处理方法

来源：互联网发布：java音乐网站编辑：程序博客网时间：2024/04/30 18:19

一.数据清理

1.填出缺失值：无记录值数据

（1）忽略元祖：缺少类标号时使用，适用于多个属性值缺失；

（2）人工填写缺失值；

（3）用属性的均值填充缺失值；

（4）用全局常量填充（unknow）；

（5）用同样本的属性均值填充缺失值；

（6）使用最可能的值填充缺失值（可由回归、贝叶斯形式化的基于推理的工具或决策树归纳确定）。

2.光滑噪声数据：被测量变量的随机误差或方差。

（1）分箱：考察数据的近邻（周围的值）来光滑有序数据的值，有序值分布到“桶”或箱中；

（2）回归：用一个函数（回归函数）进行数据拟合来达到光滑数据的目的。

（3）聚类：通过聚类检测离群点，将类似的值组织成群或“簇”，落在簇集合之外的值视为离群点。

数据清理过程：

（1）偏差检测：发现噪声、离群点和需要考察的不寻常的值。

a）考察每个属性的定义域和数据类型、每个属性可接受的值、值的长度范围；

b) 考察是否所有的值都落在期望的值域内、属性之间是否存在已知的依赖；把握数据趋势和识别异常；

c）源编码使用的不一致问题和数据表示的不一致问题（2009/9/4和4/9/2009）

d）字段过载，考察数据的唯一性规则、连续性规则和空值规则

（2）偏差纠正：一旦发现偏差需要定义并使用一系列变换纠正。

二.数据集成

数据集成：合并多个数据源中的数据，存放在一个一致的数据存储（如数据仓库）中。这些数据源包括：多个数据库、数据立方体、一般文件。

数据集成存在的问题：

（1）模式集成和对象匹配问题。来自多个信息源的现实世界的等价实体的匹配设计涉及实体识别问题。

（2）冗余问题:一个属性如果能由另一个或一组属性导出，那么该属性就是冗余的。（通过计算属性A和B之间的相关系数估计两个属性的相关度进行删除）

三.数据变换

目的：将数据转换或统一成适合挖掘的形式。涉及以下内容：

（1）光滑：去掉数据中的噪声，技术包括：分箱、回归、聚类

（2）聚集：对数据汇总和聚集（聚集日销售数据，计算月和年销售量）

（3）数据泛化：使用概念分层，用高层概念替换底层或“原始数据”

（4）规范化：将属性数据按比例缩放，使之落入一个小的特定区间，如：-1.0~1.0或0.0~1.0。规范化可以消除数值数值属性因大小不一而造成的挖掘结果偏差。（涉及神经网络如最临近分类、聚类的距离量度分类算法特别有用）

规范化方法：

a)最小-最大规范化：假定mA和MA分别为属性A的最小值和最大值。最小-最大的规范化通过式计算

b)z-score规范化（零均值规范化）：把属性A的值V基于A的均值和标准差规范化为V’‘

c)小数定标规范化：通过移动属性A的小数点位置进行规范化。小数点的移动位数依赖于的最大绝对值。A的值V规范化为V’‘

d）属性构造：由已有的属性构造和添加新的属性（height+width -> area）

四.数据规约

数据规约：用来得到数据集的规约表示，它比原来数据小的多，但仍接近保持原数据的完整性。

方法：

（1）数据立方聚集：构造数据立方，数据立方体存储多维聚集信息。

（2）维规约:减少不相关的属性（或维）来达到减少数据集规模的目的。通常使用属性子集选择方法来找出最小属性集。使数据类的概率分布尽量低接近原始属性集的概率分布。

维规约方法：

a)逐步向前选择；

b)逐步向后删除；

c）向前选择和向后删除的结合。

d）决策树归纳

（3）数据压缩：使用编码或变换以便将原始数据集合压缩成一个较小的数据集合。（无损压缩和有损压缩）

无损压缩方法：

a）小波变换

b）主成分析

（4）数值规约：选择替代的、较小的数据表示形式来减少数据量。

技术方法：

a)回归和对数线性模型

b）直方图

c）聚类

d）抽样

（5）数据离散化与概念分层：将属性值域划分区间，数据离散化技术可以用来减少给定连续属性值的个数。区间的标记可以替代实际的数值。用少数区间标记替换连续属性的数值，从而减少和简化了原来的数据。

A）数值数据的离散化和概念分层产生

技术方法：

a）分箱

b）直方图分析

c）基于熵的离散化

d）基于卡方分析的区间合并

B）分类数据的概念分层的产生

a）由用户或专家在模式级显示地说明属性的偏序

b）通过显示数据分组说明分层结构的一部分

c）说明属性集但不说明他们的偏序

d）只说明部分属性集

0 0