欢迎使用CSDN-markdown编辑器

来源:互联网 发布:a11仿生芯片知乎 编辑:程序博客网 时间:2024/05/21 12:45

数据挖掘常用数据预处理方法:

  • 聚集
  • 抽样:简单随机抽样
    分层抽样
    渐进抽样(面对样本容量不确定时的方法):先选择一个较小的样本容量,学习预测模型,逐渐增大样本容量,观察预测模型的准确率的变化情况;当变化趋于稳定时,选择样本容量
  • 维规约(降维):主成分分析PCA,奇异值分解
  • 特征子集的选择:去除冗余特征
    嵌入方法:与具体的算法有关
    过滤方法:在数据挖掘算法运行前进行特征选择
    包装方法:
    特征子集的选择过程
    搜索策略的计算花费与最优特征子集的选择需要折中权衡。
  • 特征创建:
    特征提取,特征构造
    映射数据到新的空间(时间序列进行傅里叶变换或者小波变换)
  • 离散化和二元化(特征值用二进制表示)
    非监督的离散化方法:不适用类信息,如等宽方法将属性的值域划分成具有相同宽度的区间,此方法受离群点的影响而性能不佳;等频率或等深方法更可取;k均值聚类方法
    监督离散化方法:基于熵的方法
    熵计算
    区间类的概率
    总熵
    总熵是区间熵的加权平均,区间的纯度越高,区间熵越小;当区间只有一类时,熵为0,此时区间熵对总熵无影响。当区间每个类的频率相同时,区间熵取得最大值。
    基于监督离散化的方法是为了划分区间后,使得区间熵最小。
    7.变量变换
    • 使用简单函数:在统计学中,变量变换(特别是平方根,对数和倒数变换)常用来将不具有高斯(正太)分布的数据变换成具有高斯分布的数据。
      变量变换时改变了数据的特性,需要对这些特性有深入的理解。
      ex:倒数变换会压缩大于1的值,但是却放大了0-1之间的值,{1,2,3}变成{1,1/2,1/3},而{1,1/2,1/3}变成了{1,2,3},变换1/x逆转了序,此时需要思考是否需要保序。
    • 规范化和标准化:在使用标准化时,均值标准差受离群点的影响较大,可作相应的修改,使用中位数代替均值,用绝对标准差取代标准差
      绝对标准差的计算方法
      u是均值或中位数,m表示对象的个数。
原创粉丝点击