【数据建模缺失值处理】缺失值的处理

来源：互联网发布：好喝的洋酒推荐知乎编辑：程序博客网时间：2024/04/19 07:47

缺失类型

1、完全随机缺失:缺失值跟其他变量无关,例如婚姻状况的缺失

2、随机缺失:缺失值依赖于其他变量,例如“配偶姓名”的缺失取决于“婚姻状况”完全非随机缺失:缺失值依赖于自己,例如高收入人群不愿易提供家庭收入处理方法

删除有缺失值的属性或者样本(土豪行为)
插补填充(常用于完全随机缺失且缺失度不高的情形中)
将缺失当成一种属性值(常用于完全非随机缺失)
连续变量缺失值的处理

1）对于完全随机缺失,当缺失率不高时,可以:

用常数补缺,例如均值特别地,如果存在极端值,要考虑是否剔除极端值后再计算均值
从非缺失值中随机抽样赋予缺失样本

2）对于依赖于其他某变量的随机缺失,可以在同一层内,用完全随机缺失的方法进行补缺

例如:变量“收入”取决于“工作状态”。当“工作状态”=“有工作”时,缺失的“收入”可以用所有“有工作”的持卡人的已知收入的均值代替

3）对于完全非随机缺失,可以当成一种属性,将该变量转化成类别变量

直接进行二值化，将该特征数据分为缺失值和非缺失值两类
考虑给定一个step(比如age，我们可以考虑每隔2/3岁为一个步长)，然后把它离散化，之后把NaN作为一个type加到属性类目中。
类别变量缺失值的处理
当缺失率很低时

最常出现的类别补缺
可以从其他已知的样本中随机抽样进行补缺

对于类别型变量的随机抽样补缺这里需要详细讲下：
现在我们假设有一个类别型变量X,它有三个类型的取值分别为[x1,x2,x3],我们分布计算出x1,x2,x3在X中出现频率，分别为p1,p2,p3，
并将其频率代替为其概率。很明显p1+p2+p3=1。再计算出其累积概率，以列表形式[0,p1,p1+p2,p1+p2+p3]。每次遇到一个缺失值时，
随机抽取一个值a~unifor(0,1)，a是(0，1）之间的数，如果a

阅读全文

0 0

【数据建模 缺失值处理】缺失值的处理

【数据建模缺失值处理】缺失值的处理