如何解决缺失值

来源:互联网 发布:穿越火线for mac 编辑:程序博客网 时间:2024/05/09 06:38

【dataPreparation包括抽取,清洗,转换,集成。这个过程会占用大量的时间,数据质量本身的差异和完整的数据空间问题往带来很多麻烦。如何处理缺失值和特殊值?
    首先我们定义的缺失值不是数据库中的NULL值,它包括数值缺失和特殊数值。假如你要使用一个数据库中没有的数据,要花时间赋值转化成规定的值。这个值需要说明。第二种统计是你对应的统计方法并非适合所有数据(局部敏感度问题),导致存在的差异。
    所以用某个常数来填充是一个办法,最好建立一个模型。根据数据的模型来填充一个合适恰当的值。根据变量对纪录进行数据分析箱,然后选择纪录所在的分箱对应的变量的均值,或者中位数,残差分布估计。来填充效果更一些。
    缺失原因:
    属性值缺失,信息系统本身不完备。继续原因和人为原因,数据库本身的栈和堆的技术问题。有些数据故意隐瞒。
    遗失漏掉信息数据,输入采集的故障和传感器本身精度。
    无法获取的信息,  隐私数据
    数据对象属性不可用
    dont-care value,次要信息
    获取代价太大
    系统实用性要求很高(迅速做出决策和判断的)
缺失机制:
      将数据集中不含有缺失值的变量属性称为:完全变量,数据集中含有缺失值的叫做不完全变量,Little和Rubin定义三种不同的缺失机制:
      完全随机缺失-(missing comletely at Random,MCAR)数值缺失与不完全变量以及完全变量都是无关的
      随机缺失(missing at Random,MAR),数据的确是仅仅依据与完全变量
      非随机,不可忽略缺失(Not missing at Random,NMAR, or nonignorable),不完全变量中数据缺失依赖于不完全变量本身,这种缺失是不可忽略的。缺失值的所属属性一样,单值缺失,如果属性不同就是任意缺失,时间线类数据存在随时间的单调缺失。
      空值定义
      】

0 0
原创粉丝点击