NULL:缺失数据本身也可能是有价值的
来源:互联网 发布:php 文章内链 编辑:程序博客网 时间:2024/05/17 16:03
在统计学中,数据值存在丢失通常可以被划分为两种情况:值随机缺失和值非随机缺失。在本文中,我们重点考虑第二种情况。有时候可以用一个新的变量来标识某一变量值存在丢失,该新的变量同样具有预测或分析的价值。若丢失不是随机的,通常会有一种潜在的解释,而这种解释很大程度上依赖于你需要分析预测的类型。不过如果能够了解到为何存在丢失,就能够在分析潜在母体(population)特征时,避免理解上的偏见。
有时候,某一变量在信息收集时就会丢失。例如,当与一个个体(constituent)直接接触时,他们可能会选择不留下手机号码,而这可能就是一个丢失的值。与这种情况对比而言,如果一个个体能够提供电话号码或者邮箱地址,表明他们更愿意被再联系。
在某一分析模型中,手机号码和邮箱地址可能有一定的用处(如果我们很关注提供区域号码和邮箱地址的提供者时),
可以用一个变量来标识信息的是否存在,该变量表示该提供者是否是愿意被联系或者更开放。当用一个二进制变量来表示我们拥有一个个体的信息,我们可以初步认为该信息有丢失是否具有深层含义。
如果数据丢失是非随机发生的,我们希望能够尽可能的将这些信息反馈到数据集合以及最终形成的模型中。这是一种深入了解值缺失的方式,但一定不是唯一的方式。后续我们将会讨论更多关于处理缺失值的方式。敬请关注!
有时候,某一变量在信息收集时就会丢失。例如,当与一个个体(constituent)直接接触时,他们可能会选择不留下手机号码,而这可能就是一个丢失的值。与这种情况对比而言,如果一个个体能够提供电话号码或者邮箱地址,表明他们更愿意被再联系。
在某一分析模型中,手机号码和邮箱地址可能有一定的用处(如果我们很关注提供区域号码和邮箱地址的提供者时),
可以用一个变量来标识信息的是否存在,该变量表示该提供者是否是愿意被联系或者更开放。当用一个二进制变量来表示我们拥有一个个体的信息,我们可以初步认为该信息有丢失是否具有深层含义。
另外一个典型的例子就是,在调查中有可能存在非随机丢失的变量值---收入。历史上,科学家们发现收入较高的人群往往更倾向于不报告自己的收入。因此可以得出一个假设,对于主动报告收入信息和自我审核的人群可能会有不同的特征。如果我们将收入当作建模参照点,很可能会训练得到比较片面的模型。我们可以验证一下,看看主动报告收入和不报告收入两者之间是否有不同,用一个二进制变量y来表示是否有收入信息,如果两种人群存在差异,我们可以让所训练的模型能够捕获这些不同的特征。
同样的,对于分类变量,如种族,对于所有有缺失值的设定一个新的分类'unknown',这样在测试时就可以用变量y来标识是否有种族信息。如果我们能够确认数据的缺失是非随机的,那么我们就可以减少建模时存在的片面信息。
数据的自然丢失,本质上是有问题的。每当我们用历史数据来预测时,我们期望分析的样本能够尽可能代表的代表实际的母体。若能确定数据集合中丢失的数据源,我们就能够更准确的掌控缺失值,从而提高模型的质量。如果数据丢失是非随机发生的,我们希望能够尽可能的将这些信息反馈到数据集合以及最终形成的模型中。这是一种深入了解值缺失的方式,但一定不是唯一的方式。后续我们将会讨论更多关于处理缺失值的方式。敬请关注!
Caitlin Garrett, Statistical Analyst
原本来自:http://www.rapidinsightinc.com/null-missing-data-valuable/?goback=%2Enmp_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1%2Enpv_277138950_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_*1_spm*4pic_*1#%21
0 0
- NULL:缺失数据本身也可能是有价值的
- phpmyadmin没有接收到要导入的数据.可能是文件名没有提交,也可能是文件大小超出 PHP 限制.
- 选定的数据存储区出现问题,原因可能是服务器名称或凭据无效,或者权限不足。也可能是未启用角色管理器功能造成的。
- 缺失了大数据,谈不上是真正的O2O
- 两份“个人“简历(可能是我的,也可能不是……ing)
- 修改数据时报错------ORA-01480: STR 绑定值的结尾 Null 字符缺失
- 这篇文章是为My FlyBean V1.00动态载入子节点的附件,其本身可能没有什么意义
- DBNull代表的是DB(也即SQL)中的“null”,而不是CLR中的“null”
- 搜索引擎是如何判断有价值的文章
- 搜索引擎是如何判断有价值的文章
- 用户是最有价值的编辑
- SVN管理android项目用svn控制版本,svn本身是不会识别哪些该传,哪些不该传,这就导致有些关于路径的东西(比如拓展jar的路径)也被上传了,而当别人下载后,那个路径对于这个人可能完全不存在,
- 数据缺失的处理方法
- 数据缺失的中文字符串
- 诡异的NoClassDefFoundError错误——也可能是65536引起的
- oracle plsql修改数据时ORA-01480: STR 绑定值的结尾 Null 字符缺失 的错误解决办法。
- Json解析,同一个字段,获取的可能是对象,数组,或是null
- “配置选项 'Ad Hoc Distributed Queries' 不存在,也可能是高级选项。 ”的解决办法
- 《黑马程序员》 网络编程 TCP、UDP、文本转化器、上传文本等练习
- NO6.java笔记【三维数组】
- jquery 对select的操作
- VC使用makefile小结(不适用于vs2003以上版本)
- 16个HTML5 框架、模板以及生成工具
- NULL:缺失数据本身也可能是有价值的
- 前台线程和后台线程的问题
- 数据库中插入不进数据现象
- 熵(信息论中)
- 本地管理表空间(LMT)
- 四元数
- php 上传文件到ftp上
- CodeProject上的一些摘抄
- Ubuntu中Git服务器搭建(做了修改)