欢迎使用CSDN-markdown编辑器

来源：互联网发布：a11仿生芯片知乎编辑：程序博客网时间：2024/05/21 12:45

数据挖掘常用数据预处理方法：

聚集
抽样：简单随机抽样
分层抽样
渐进抽样（面对样本容量不确定时的方法）：先选择一个较小的样本容量，学习预测模型，逐渐增大样本容量，观察预测模型的准确率的变化情况；当变化趋于稳定时，选择样本容量
维规约（降维）：主成分分析PCA，奇异值分解
特征子集的选择：去除冗余特征
嵌入方法：与具体的算法有关
过滤方法：在数据挖掘算法运行前进行特征选择
包装方法：

搜索策略的计算花费与最优特征子集的选择需要折中权衡。
特征创建：
特征提取，特征构造
映射数据到新的空间（时间序列进行傅里叶变换或者小波变换）
离散化和二元化（特征值用二进制表示）
非监督的离散化方法：不适用类信息，如等宽方法将属性的值域划分成具有相同宽度的区间，此方法受离群点的影响而性能不佳；等频率或等深方法更可取；k均值聚类方法
监督离散化方法：基于熵的方法

总熵是区间熵的加权平均，区间的纯度越高，区间熵越小；当区间只有一类时，熵为0，此时区间熵对总熵无影响。当区间每个类的频率相同时，区间熵取得最大值。
基于监督离散化的方法是为了划分区间后，使得区间熵最小。
7.变量变换
- 使用简单函数：在统计学中，变量变换（特别是平方根，对数和倒数变换）常用来将不具有高斯（正太）分布的数据变换成具有高斯分布的数据。
  变量变换时改变了数据的特性，需要对这些特性有深入的理解。
  ex：倒数变换会压缩大于1的值，但是却放大了0-1之间的值，{1,2,3}变成{1,1/2,1/3}，而{1,1/2,1/3}变成了{1,2,3}，变换1/x逆转了序，此时需要思考是否需要保序。
- 规范化和标准化：在使用标准化时，均值和标准差受离群点的影响较大，可作相应的修改，使用中位数代替均值，用绝对标准差取代标准差
  
  u是均值或中位数，m表示对象的个数。

阅读全文

0 0