python数据挖掘笔记(1)—数据预处理

来源:互联网 发布:淘宝实名认证小号 编辑:程序博客网 时间:2024/05/17 23:05
一、数据清洗
1.缺失值处理
均值,中位数,众数插补
使用固定值
最近邻插补
回归方法
插值法(拉格朗日插值法,lagrange();牛顿插值法;样条插值法,等等)
2.异常值处理
删除含有异常值的记录
视为缺失值
平均值修正
不处理(是在引起异常的原因正常的情况下)
二、数据集成
数据挖掘需要的数据往往分布在不同的数据源里,数据集成就是把多个数据源合并到一个一致的数据存储。
三、数据变换
1.简单函数变换
如可把不具有正态分布的数据变换成正态分布的数据
简单的对数变换或差分变换可以把非平稳序列变成平稳序列
可使用对数变换将大区间数据压缩变换成小区间数据
2.规范化
最小-最大规划化,也称离差标准化,将数据映射到[0,1]之间
零-均值规范化,也称标准差标准化,处理后数据均值为0,标准差为1
小数定标规范化
通过移动属性值的小数位数,将属性值映射到[-1,1]之间,移动的小数位数取决于属性值绝对值的最大值。
3.连续属性离散化
就是再数据的取值范围内设定若干个离散的划分点,将取值范围划分为一些离散化的区间,最后用不同的符号或整数值代表落在每个子区间中的数据值。
等宽法
等频法
基于聚类分析的方法
4.属性构造
利用已有属性集构造新的属性。
5.小波变换
小波变换的方法在信号处理,图像处理,语音处理,模式识别,量子物理等领域都有广泛的应用
小波基函数是一种具有局部支集的函数,且平均值为0,小波基函数满足
四、数据规约
在大数据集上进行复杂的数据分析和挖掘需要很长的时间,数据规约产生更小但保持原数据完整性的新数据集,在规约后的数据集上进行分析和挖掘更有效率。
1.属性规约
属性规约通过属性合并来创建新属性维数,或者直接通过删除不相关的属性来减少数据维数,从而提高数据挖掘效率,降低计算成本。主要方法有:
合并属性
逐步向前选择
逐步向后删除
决策树归纳
主成分分析 from sklearn.decomposition import PCA
2.数值规约
数值规约通过选择替代的,较小的数据来减少数据量。主要方法有:
有参数方法:只需存放参数,不需要存放实际数据
线性回归
多元回归
对数线性模型
无参数方法:需要存放实际数据
频率直方图
聚类
抽样
原创粉丝点击