欢迎使用CSDN-markdown编辑器
来源:互联网 发布:a11仿生芯片知乎 编辑:程序博客网 时间:2024/05/21 12:45
数据挖掘常用数据预处理方法:
- 聚集
- 抽样:简单随机抽样
分层抽样
渐进抽样(面对样本容量不确定时的方法):先选择一个较小的样本容量,学习预测模型,逐渐增大样本容量,观察预测模型的准确率的变化情况;当变化趋于稳定时,选择样本容量 - 维规约(降维):主成分分析PCA,奇异值分解
- 特征子集的选择:去除冗余特征
嵌入方法:与具体的算法有关
过滤方法:在数据挖掘算法运行前进行特征选择
包装方法:
搜索策略的计算花费与最优特征子集的选择需要折中权衡。 - 特征创建:
特征提取,特征构造
映射数据到新的空间(时间序列进行傅里叶变换或者小波变换) - 离散化和二元化(特征值用二进制表示)
非监督的离散化方法:不适用类信息,如等宽方法将属性的值域划分成具有相同宽度的区间,此方法受离群点的影响而性能不佳;等频率或等深方法更可取;k均值聚类方法
监督离散化方法:基于熵的方法
总熵是区间熵的加权平均,区间的纯度越高,区间熵越小;当区间只有一类时,熵为0,此时区间熵对总熵无影响。当区间每个类的频率相同时,区间熵取得最大值。
基于监督离散化的方法是为了划分区间后,使得区间熵最小。
7.变量变换- 使用简单函数:在统计学中,变量变换(特别是平方根,对数和倒数变换)常用来将不具有高斯(正太)分布的数据变换成具有高斯分布的数据。
变量变换时改变了数据的特性,需要对这些特性有深入的理解。
ex:倒数变换会压缩大于1的值,但是却放大了0-1之间的值,{1,2,3}变成{1,1/2,1/3},而{1,1/2,1/3}变成了{1,2,3},变换1/x逆转了序,此时需要思考是否需要保序。 - 规范化和标准化:在使用标准化时,均值和标准差受离群点的影响较大,可作相应的修改,使用中位数代替均值,用绝对标准差取代标准差
u是均值或中位数,m表示对象的个数。
- 使用简单函数:在统计学中,变量变换(特别是平方根,对数和倒数变换)常用来将不具有高斯(正太)分布的数据变换成具有高斯分布的数据。
阅读全文
0 0
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- 欢迎使用CSDN-markdown编辑器
- mysql 查询近30天的数据
- 机器学习与深度学习
- 安装tensorflow(window
- Python 开发者的 6 个必备库
- 【游戏开发3D数学笔记】2.坐标系
- 欢迎使用CSDN-markdown编辑器
- #ifdef _DEBUG #define new DEBUG_NEW #endif的解释
- WebStorm激活码
- 开源许可证基础知识扫盲
- G
- Arcgis api for JavaScript 跨域配置(在线编辑问题)
- 多个div不换行显示
- HDU4586 Play the Dice(数论)
- 第一章:开始