数据预处理

来源:互联网 发布:3d打印机切片软件 编辑:程序博客网 时间:2024/06/05 09:38
1.数据质量涉及许多因素,包括准确性,完整性,一致性,时效性,可信性和可解释性
2.数据预处理的主要任务,及数据清理,数据集成,数据规约和数据变换
数据清理:通过填写确实数据,光滑噪声数据,识别或者删除离群点,并解决不一致性来清理数据
3.数据规约:在维规约中,例如使用PCA,小波变换等,以及属性子集选择和和属性够造。在数值规约中,使用参数模型或者非参数模型,用较小的表示取代数据。假设你使用神经网络,最近岭等给予距离的挖掘算法,就是把数据放到一个范围中,比如0到1之间。
缺失值的处理:
1.忽略元祖,当元祖数据顺势比较多的时候这么干
2.人工填写缺失值,当数据量大,确实数据较多,该方法不行
3.使用一个全局常量填充缺失值,方法简单,但是不可靠
4.使用属性的中心度量,如均值或者中位数
5.使用与给定元祖属同一类的所有样本的属性均值或者中位数,如果给定数据分布是倾斜的,中位数好一点
6.使用最有可能的值填充缺失值,利用回归和贝叶斯推理或者决策树归纳确定
通过规范化来变换数据:
最小-最大规范化

原创粉丝点击