【数据建模 缺失值处理】缺失值的处理
来源:互联网 发布:好喝的洋酒推荐 知乎 编辑:程序博客网 时间:2024/04/19 07:47
缺失类型
1、完全随机缺失:缺失值跟其他变量无关,例如婚姻状况的缺失
2、随机缺失:缺失值依赖于其他变量,例如“配偶姓名”的缺失取决于“婚姻状况”完全非随机缺失:缺失值依赖于自己,例如高收入人群不愿易提供家庭收入处理方法
删除有缺失值的属性或者样本(土豪行为)
插补填充(常用于完全随机缺失且缺失度不高的情形中)
将缺失当成一种属性值(常用于完全非随机缺失)
连续变量缺失值的处理
1)对于完全随机缺失,当缺失率不高时,可以:
用常数补缺,例如均值 特别地,如果存在极端值,要考虑是否剔除极端值后再计算均值
从非缺失值中随机抽样赋予缺失样本
2)对于依赖于其他某变量的随机缺失,可以在同一层内,用完全随机缺失的方法进行补缺
例如:变量“收入”取决于“工作状态”。当“工作状态”=“有工作”时,缺失的“收入”可以用所有“有工作”的持卡人的已知收入的均值代替
3)对于完全非随机缺失,可以当成一种属性,将该变量转化成类别变量
直接进行二值化,将该特征数据分为缺失值和非缺失值两类
考虑给定一个step(比如age,我们可以考虑每隔2/3岁为一个步长),然后把它离散化,之后把NaN作为一个type加到属性类目中。
类别变量缺失值的处理
当缺失率很低时
最常出现的类别补缺
可以从其他已知的样本中随机抽样进行补缺
对于类别型变量的随机抽样补缺这里需要详细讲下:
现在我们假设有一个类别型变量X,它有三个类型的取值分别为[x1,x2,x3],我们分布计算出x1,x2,x3在X中出现频率,分别为p1,p2,p3,
并将其频率代替为其概率。很明显p1+p2+p3=1。再计算出其累积概率,以列表形式[0,p1,p1+p2,p1+p2+p3]。每次遇到一个缺失值时,
随机抽取一个值a~unifor(0,1),a是(0,1)之间的数, 如果a
- 【数据建模 缺失值处理】缺失值的处理
- 缺失值的处理
- 缺失值的处理
- 【R】数据缺失值处理
- sklearn 数据缺失值处理
- 数据中的缺失值处理
- 数据清洗---缺失值处理
- 数据挖掘-处理缺失值
- 缺失值的处理方法
- 缺失值的处理方法
- 处理缺失值的方法
- 缺失值的处理方法
- 缺失值的处理方法
- 缺失值的处理方法
- 缺失值的前期处理
- 缺失值处理
- 缺失值处理
- 缺失值处理方法
- Python爬虫XPATH
- 横向滑动菜单Tablayout,点击选项给下面的viewpager中的fragment传值
- Hadoop 2.8 集群的安装
- jasperReports
- 面试中常见的排序算法
- 【数据建模 缺失值处理】缺失值的处理
- 从驱动层到应用层打通Android系统通路
- [高级软件工程实验]将menu设计为可重用的子系统
- Maven学习总结(四)——Maven核心概念
- 已经把用户加入MQ的执行用户组了,为什么该用户还是没有权限执行MQ
- PTA 爆内存函数实例
- java调用发送短信API
- itext pdf加水印
- 集成的HTTP嗅探器HttpWatch更新至v11.0.21,改进F5刷新机制