【数据建模 缺失值处理】缺失值的处理

来源:互联网 发布:好喝的洋酒推荐 知乎 编辑:程序博客网 时间:2024/04/19 07:47

缺失类型

1、完全随机缺失:缺失值跟其他变量无关,例如婚姻状况的缺失

2、随机缺失:缺失值依赖于其他变量,例如“配偶姓名”的缺失取决于“婚姻状况”完全非随机缺失:缺失值依赖于自己,例如高收入人群不愿易提供家庭收入处理方法

删除有缺失值的属性或者样本(土豪行为)
插补填充(常用于完全随机缺失且缺失度不高的情形中)
将缺失当成一种属性值(常用于完全非随机缺失)
连续变量缺失值的处理

1)对于完全随机缺失,当缺失率不高时,可以:

用常数补缺,例如均值 特别地,如果存在极端值,要考虑是否剔除极端值后再计算均值
从非缺失值中随机抽样赋予缺失样本

2)对于依赖于其他某变量的随机缺失,可以在同一层内,用完全随机缺失的方法进行补缺

例如:变量“收入”取决于“工作状态”。当“工作状态”=“有工作”时,缺失的“收入”可以用所有“有工作”的持卡人的已知收入的均值代替

3)对于完全非随机缺失,可以当成一种属性,将该变量转化成类别变量

直接进行二值化,将该特征数据分为缺失值和非缺失值两类
考虑给定一个step(比如age,我们可以考虑每隔2/3岁为一个步长),然后把它离散化,之后把NaN作为一个type加到属性类目中。
类别变量缺失值的处理
当缺失率很低时

最常出现的类别补缺
可以从其他已知的样本中随机抽样进行补缺

对于类别型变量的随机抽样补缺这里需要详细讲下:
现在我们假设有一个类别型变量X,它有三个类型的取值分别为[x1,x2,x3],我们分布计算出x1,x2,x3在X中出现频率,分别为p1,p2,p3,
并将其频率代替为其概率。很明显p1+p2+p3=1。再计算出其累积概率,以列表形式[0,p1,p1+p2,p1+p2+p3]。每次遇到一个缺失值时,
随机抽取一个值a~unifor(0,1),a是(0,1)之间的数, 如果a

原创粉丝点击