数据预处理笔记

来源:互联网 发布:南昌网站搜索引擎优化 编辑:程序博客网 时间:2024/05/21 13:57

1.数据质量的定义:准确性、完整性、一致性、时效性、可信性和可解释性。
2.数据清理:填补缺失的值,光滑噪声同时识别离群点,纠正数据的不一致性。
填补缺失值的方法:
1)忽略元祖(缺少类标号的时候通常可以这样做);
2)人工填写缺失值(费时费力);
3)使用一个全局常量填充缺失值(方法简单但可靠性差);
4)使用属性的中心度量填充缺失值(使用均值或者中位数填充);
5)使用与给定元祖属同一类的所有样本的属性均值或中位数(对其进行分类之后进行填充);
6)使用最可能的值填充缺失值(采用回归、贝叶斯形式化方法等。最流行的方法)。
3.数据集成:将来自多个数据源的数据整合成一致的数据存储,来减少数据的冗余和不一致问题。
4.数据规约:数据规约是得到数据的规约表示,而使得信息内容的损失最小化。数据规约方法有维规约、数量规约和数据压缩。
1)维规约:减少所考虑的随机变量或维的个数,方法有小波变化、主成分分析、属性子集选择和属性创建。
2)数量规约:使用参数或非参数模型,得到原数据的较小的表示。参数模型只存放模型参数,而非实际数据。例如回归和对数线性模型。非参数方法包括直方图、聚类、抽样和数据立方体聚集。
3)数据压缩:是使用变换,得到原数据的归约或“压缩”表示。如果原数据可以由压缩后的数据重构,而不损失任何信息,则数据压缩是无损的;否则,它是有损的。
5.数据变换:将数据变换成适于挖掘的形式。
6.数据离散化:把相应的数据的值映射到区间或概念标号变化数值数据。这种方法可以自动的产生数据的概念分层,而概念分层允许在多个粒度层进行挖掘。
离散化技术包括分箱、直方图分析、聚类分析、决策树分析和相关分析。

0 0
原创粉丝点击