数据挖掘学习笔记(三)数据预处理
来源:互联网 发布:中国教师网络研修网 编辑:程序博客网 时间:2024/05/17 02:13
数据预处理
一,数据质量
数据质量涉及:准确性;完整性;一致性;时效性;可信性;可解释性。
二,数据预处理的任务
(1)数据清理
1,缺失值
方法:忽略元组;人工填写缺失值;使用一个全局常量填充缺失值;使用属性的中心度量填充缺失值;使用与给定元组同一类的所有样本的属性均值或中位数;使用最可能的值填充。
2,噪声数据
噪声是被测量的变量的随机误差或方差、
方法:
分箱:用箱中位数光滑;用箱均值光滑;用箱边界光滑
回归:用一个拟合函数来光滑数据
离群点分析:可以通过聚类来检测离群点
(2)数据集成
1,实体识别问题
来自多个信息源的现实世界的等价实体如何才能“匹配”?
2,冗余和相关分析
冗余是数据集成的一个重要问题,一个属性如果能由其他属性“导出”,那么这个属性就很可能是冗余的。有些属性可以由相关分析检测出来。
标称数据的χ2相关检验
假设A有c个不同的值:a1.,a2,...ac;B有r个不同的值b1,b2,b3....br
其中Oij是联合事件(Ai,Bj)的观测频度,而eij 是(Ai,Bj)的期望频度:
其中,n是数据元组的个数,count(A=ai)是A上具有ai的元组的个数。
χ2 统计检验假设A和B是独立的。检验基于显著水平,具有自由度(r-1)*(c-1)。
数值数据的相关系数
对于数值数据,我们可以通过计算属性A和B的相关系数,估计这两个属性的相关度。
3, 除了检测属性间的冗余外,还应该在元组级检测重复。
4,数据值冲突的检测与处理
(3)数据规约
数据规约策略包括:维规约,数量规约和数据压缩。
维规约减少所考虑的随机变量的个数和属性的个数,维规约的方法包括:小波变换,主成分分析,属性子集选择。
数量规约用代替的,较小的数据表示形式替换原数据。
数据压缩分为有损的和无损的。
(4)数据变换与数据离散化
数据变换的策略:
光滑:去掉数据中的噪声。这类技术包括分箱,回归和聚类。
属性构造:由给定的属性构造新的属性并添加到属性集中去。
聚集:对数据进行进行汇总或聚集。
规范化:把属性数据按比例缩放,使其落入某个区间。
离散化:数据分层。
由标称数据产生概念分层:属性,如street,可以泛华到较高的概念层,如city或者country。
- 数据挖掘学习笔记(三)数据预处理
- 【数据挖掘笔记三】数据预处理
- 数据挖掘笔记(三)—数据预处理
- 数据挖掘学习笔记2:数据预处理
- 数据挖掘学习笔记(三)
- 数据挖掘学习笔记三
- 【数据挖掘概念与技术】学习笔记3-数据预处理
- 数据预处理和weka.filters的使用--数据挖掘学习和weka使用(三)
- python数据分析与挖掘学习笔记(2)-淘宝商品数据清洗及预处理
- python数据挖掘笔记(1)—数据预处理
- 数据挖掘学习(三)
- 数据挖掘学习------------------1-数据准备-3-数据预处理
- 数据挖掘(学习笔记)-初识数据挖掘
- 数据挖掘预处理
- 《数据挖掘概念与技术》学习笔记第3章(3/10)数据预处理
- 数据挖掘之数据预处理
- 数据挖掘3-数据预处理
- 数据挖掘之数据预处理
- Qt中translate、tr关系 与中文问题
- 放下
- 在工具栏(ToolBar)上添加ComboBox控件,为何每次在下拉列表中选择时,都会自动的选中工具栏上的一个按钮?
- HDU 4706 Children's Day && 2013 ACM/ICPC Asia Regional Online —— Warmup
- 黑马程序员 多线程
- 数据挖掘学习笔记(三)数据预处理
- c# winform项目treeview控件绑定本地电脑磁盘信息,读取文件夹信息,显示文件夹内文件内容
- 黑马程序员-----高新技术(Eclipse使用技巧和JDK1.5新特性)
- Android的重力感器实例的改正的地方
- Sikuli 图片识别
- Android XML Pull解析
- 64位win7下Android SDK Manager闪退的解决方法
- 穆穆推荐-软件销售行业软件公司销售参考操作手册-之2-软件公司销售团队的组建及岗位分类
- Problem 12:Highly divisible triangular number