如何解决缺失值

来源：互联网发布：穿越火线for mac 编辑：程序博客网时间：2024/05/09 06:38

【dataPreparation包括抽取，清洗，转换，集成。这个过程会占用大量的时间，数据质量本身的差异和完整的数据空间问题往带来很多麻烦。如何处理缺失值和特殊值？
    首先我们定义的缺失值不是数据库中的NULL值，它包括数值缺失和特殊数值。假如你要使用一个数据库中没有的数据，要花时间赋值转化成规定的值。这个值需要说明。第二种统计是你对应的统计方法并非适合所有数据（局部敏感度问题），导致存在的差异。
    所以用某个常数来填充是一个办法，最好建立一个模型。根据数据的模型来填充一个合适恰当的值。根据变量对纪录进行数据分析箱，然后选择纪录所在的分箱对应的变量的均值，或者中位数，残差分布估计。来填充效果更一些。
    缺失原因：
    属性值缺失，信息系统本身不完备。继续原因和人为原因，数据库本身的栈和堆的技术问题。有些数据故意隐瞒。
    遗失漏掉信息数据，输入采集的故障和传感器本身精度。
    无法获取的信息，隐私数据
    数据对象属性不可用
    dont-care value，次要信息
    获取代价太大
    系统实用性要求很高（迅速做出决策和判断的）
缺失机制：
      将数据集中不含有缺失值的变量属性称为：完全变量，数据集中含有缺失值的叫做不完全变量，Little和Rubin定义三种不同的缺失机制：
      完全随机缺失-（missing comletely at Random，MCAR）数值缺失与不完全变量以及完全变量都是无关的
      随机缺失（missing at Random，MAR），数据的确是仅仅依据与完全变量
      非随机，不可忽略缺失（Not missing at Random,NMAR, or nonignorable）,不完全变量中数据缺失依赖于不完全变量本身，这种缺失是不可忽略的。缺失值的所属属性一样，单值缺失，如果属性不同就是任意缺失，时间线类数据存在随时间的单调缺失。
      空值定义
      】

0 0