数据预处理概念

来源:互联网 发布:java音乐网站 编辑:程序博客网 时间:2024/05/01 04:55

数据预处理:对原始数据进行必要的清理、集成、转换、离散和规约等一系列的处理工作。

原始数据的特征:

(1)不完整性:数据属性的丢失、不确定的情况、缺失必需的数据。

(2)含噪声:数据具有不正确属性值:包含错误或存在偏离期望的离群值。

产生原因:如收集数据的设备故障,人或计算机的错误可能在数据的输入时出现,数据传输中可能出现错误。

(3)杂乱性:原始数据是从各个实际应用系统中获取的。由于各应用系统数据缺乏统一的标准的定义。


1.数据清理:填补遗漏的数值、平滑有噪声数据、识别或去除异常值以及解决不一致问题。

2.数据集成:将来自多个数据源的数据合并在一起,形成一致的数据存储,如将不同数据库中的数据集成到一个数据仓库中存储。

3:数据变换:将数据转化成适合挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的特定区间。(方法:平滑处理、聚集处理、数据泛化处理、规格化、属性构造)

4 数据规约:在不影响挖掘结果的前提下,通过数据聚集、删除冗余特性的办法压缩数据,提高数据挖掘的质量,降低时间复杂度。

0 0
原创粉丝点击