数据预处理笔记
来源:互联网 发布:南昌网站搜索引擎优化 编辑:程序博客网 时间:2024/05/21 13:57
1.数据质量的定义:准确性、完整性、一致性、时效性、可信性和可解释性。
2.数据清理:填补缺失的值,光滑噪声同时识别离群点,纠正数据的不一致性。
填补缺失值的方法:
1)忽略元祖(缺少类标号的时候通常可以这样做);
2)人工填写缺失值(费时费力);
3)使用一个全局常量填充缺失值(方法简单但可靠性差);
4)使用属性的中心度量填充缺失值(使用均值或者中位数填充);
5)使用与给定元祖属同一类的所有样本的属性均值或中位数(对其进行分类之后进行填充);
6)使用最可能的值填充缺失值(采用回归、贝叶斯形式化方法等。最流行的方法)。
3.数据集成:将来自多个数据源的数据整合成一致的数据存储,来减少数据的冗余和不一致问题。
4.数据规约:数据规约是得到数据的规约表示,而使得信息内容的损失最小化。数据规约方法有维规约、数量规约和数据压缩。
1)维规约:减少所考虑的随机变量或维的个数,方法有小波变化、主成分分析、属性子集选择和属性创建。
2)数量规约:使用参数或非参数模型,得到原数据的较小的表示。参数模型只存放模型参数,而非实际数据。例如回归和对数线性模型。非参数方法包括直方图、聚类、抽样和数据立方体聚集。
3)数据压缩:是使用变换,得到原数据的归约或“压缩”表示。如果原数据可以由压缩后的数据重构,而不损失任何信息,则数据压缩是无损的;否则,它是有损的。
5.数据变换:将数据变换成适于挖掘的形式。
6.数据离散化:把相应的数据的值映射到区间或概念标号变化数值数据。这种方法可以自动的产生数据的概念分层,而概念分层允许在多个粒度层进行挖掘。
离散化技术包括分箱、直方图分析、聚类分析、决策树分析和相关分析。
- 数据预处理笔记
- 数据预处理一些笔记
- 数据挖掘学习笔记2:数据预处理
- 【数据挖掘笔记三】数据预处理
- 深度学习笔记8 数据预处理
- torch入门笔记12:数据的预处理
- 代码笔记:caffe-reid的数据预处理
- Python笔记-数据探索和预处理
- (二)机器学习笔记之数据预处理
- R语言之数据预处理笔记
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 数据预处理
- 80端口没有被占用,wampapache服务却无法启动
- 【翻译】apk反汇编之smali语法
- 禁止从缓存中调用
- D3
- 【网络】HTTP 方法:GET 对比 POST
- 数据预处理笔记
- 大数四则运算
- oracle 树查询方法(connnet by 、level、start with)
- 移动IM开发之技术选型
- JavaScript
- NSString 和 UInt8 相互转换
- 页面顶部,固定不动
- ES6特性简述
- 在浏览器中打开手机app