1、数据预处理(1)
来源:互联网 发布:exec linux 编辑:程序博客网 时间:2024/04/30 22:47
1、解决的问题
数据库中的数据极易受到噪声、丢失、不一致等数据的侵扰,数据也可能来自多个异构的数据源。为了提高数据挖掘质量,需要对噪声进行清理,丢失的数据进行补充,异构的不一致的数据转换成一致的数据。换句话说,就是把杂七杂八的数据整理成我们需要的条理清晰的数据。
为了解决现实生活中数据的不完整性、含噪声、不一致性的问题,需要对数据进行预处理。
2、可用的技术
预处理的技术可以分为以下几种:
1)数据清理:去除噪声,纠正不一致。
2)数据集成:将异构的数据处理后,按照一致的数据结构存储。如数据仓库
3)数据变换:如规范化,将数据转换成另一种表示方式,比如表示格式上的变化,或数据区间的不同(如十分制和百分制的转换等)。从而提高挖掘的准确性和效率
4)数据规约:通过聚集、删除冗余特征或聚类等方法来减小数据规模。
参考文献:
[1] Jiawei Han,《数据挖掘概念与技术》,北京:机械工业出版社,2007,第二版,30-32
- 1、数据预处理(1)
- perl—数据预处理(1)
- sklearn 数据预处理1: StandardScaler
- python数据挖掘笔记(1)—数据预处理
- python . 数据分析1 数据的预处理
- 图片情感分析(1):图像数据预处理
- 预处理器(1)
- pdo 预处理(1)
- 机器翻译重要过程(1)---数据预处理
- 神经网络算法学习---图像数据预处理1
- 项目——数据预处理1
- 机器翻译重要过程(1)---数据预处理
- 数据预处理(2)
- 数据挖掘学习------------------1-数据准备-3-数据预处理
- 数据预处理(1) ——数据清洗 使用python(sklearn,pandas,numpy)实现
- 1、预处理器(PRE)
- 文本预处理学习(1)
- 国密SM2算法数字签名预处理1及预处理2数据封装测试,基于GmSSL
- 再说O2O:六度空间理论实践探讨
- 【hdu1272】 小希的迷宫 (并查集)
- hdu 4340 树形dp
- 溫度對ccd成像的影響
- MBProgressHUD的使用
- 1、数据预处理(1)
- 第二阶段总结之---生活篇
- SDL的VC环境搭建
- Objective C--解释器模式
- IT人的娱乐--浏览器也可以成为我们的游戏机
- OpenGL ES着色器语言之着色
- 關於數碼相機光圈與景深問題的思考
- eclipse中的快捷键功能
- Android开发--身高体重指数(BIM)计算--添加对话框(Dialog)(Toast界面组件、错误处理try-catch)