数据预处理概念
来源:互联网 发布:java音乐网站 编辑:程序博客网 时间:2024/05/01 04:55
数据预处理:对原始数据进行必要的清理、集成、转换、离散和规约等一系列的处理工作。
原始数据的特征:
(1)不完整性:数据属性的丢失、不确定的情况、缺失必需的数据。
(2)含噪声:数据具有不正确属性值:包含错误或存在偏离期望的离群值。
产生原因:如收集数据的设备故障,人或计算机的错误可能在数据的输入时出现,数据传输中可能出现错误。
(3)杂乱性:原始数据是从各个实际应用系统中获取的。由于各应用系统数据缺乏统一的标准的定义。
1.数据清理:填补遗漏的数值、平滑有噪声数据、识别或去除异常值以及解决不一致问题。
2.数据集成:将来自多个数据源的数据合并在一起,形成一致的数据存储,如将不同数据库中的数据集成到一个数据仓库中存储。
3:数据变换:将数据转化成适合挖掘的形式,如将属性数据按比例缩放,使之落入一个比较小的特定区间。(方法:平滑处理、聚集处理、数据泛化处理、规格化、属性构造)
4 数据规约:在不影响挖掘结果的前提下,通过数据聚集、删除冗余特性的办法压缩数据,提高数据挖掘的质量,降低时间复杂度。
0 0
- 数据预处理概念
- 数据挖掘概念汇总及数据预处理
- 【数据挖掘概念与技术】学习笔记3-数据预处理
- 【读书笔记-数据挖掘概念与技术】数据预处理
- 《数据挖掘-概念与技术》之数据预处理
- 3.数据挖掘概念笔记——数据预处理
- 数据挖掘概念与技术 第3章 数据预处理
- 《数据挖掘:概念与技术》-第3章:数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 通过日志快速分析动画资源来自哪里
- LeetCode Scramble String(动态规划)
- Python爬取川农大教务系统获取课表
- Codeforces-689A-Mike and Cellphone
- cygwin添加到windows右键菜单
- 数据预处理概念
- poj2524
- Lnmp环境下安装laravel
- 一段csrf利用代码
- 93. Restore IP Addresses(dfs+剪枝)
- 数组实现的队列
- 不算重零开始的java学习(五)
- 统计学习的基本概念
- poj 3126 Prime Path (线性素数筛 + bfs)