一般随机抽样并不能保持统计特性
来源:互联网 发布:若毒之乎的乎 编辑:程序博客网 时间:2024/04/30 00:20
举一个具有启发性的例子
如果根据一天内很多人的吃饭记录如:
张三 早餐
李四 中餐
张三 晚餐
。。。
的数据,随机抽取10%进行统计
假设本来数据有s个人吃了1顿,d个人吃了2顿
那么吃两顿饭的人占全部人的比例应该是 d/(s +d)
s在抽样样本中有s/10,而d只有d/100是两条吃饭记录都选中,18d/100是只选中一个记录
所以样本结果变成了(d/100) / (d/100 +s/10+18d/100 )
也就是d / (10s+19d) 显然无论s,d取什么值都是和原来的数据的比例是不同的。
所以能找到一个保持统计特性的抽样方法在大量数据抽样挖掘中是非常有价值的
或者找到相关的抽样结果到原始数据的结果校正也是可以考虑的,不过在本例子中利用d / (10s+19d)求d/(s +d)是非常困难的
当然如果不怕麻烦可以抽出10%的用户的全部记录来进行统计来得到正确的答案,不过这样会很难受,必须要依靠哈希来判断用户记录是否被抽取
随着记录的增加,维持固定比例的用户的记录也是越来越困难的
所以常见的方法是将查询的关键字段作为主键然后按主键进行抽样来进行统计并得到结果
- 一般随机抽样并不能保持统计特性
- 如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)
- 如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)
- 如何确定抽样统计的最小样本量(附:随机抽样统计的抽样误差Excel计算表格)
- matlab随机抽样
- java实现随机抽样
- 随机抽样算法
- 随机抽样一致-RANSAC
- SAS随机抽样
- 随机抽样一致性算法
- 随机抽样一致 RANSAC
- 蓄水池随机抽样算法
- 随机抽样一致性算法
- 随机抽样一致性算法
- 随机抽样一致-RANSAC
- 编程珠玑-随机抽样
- 随机抽样一致算法
- 蓄水池随机抽样
- PCI9052的局部寄存器的配置
- Catalog Item & Build
- 行为识别
- Servlet小结
- Linux的关机与重启命令
- 一般随机抽样并不能保持统计特性
- 数据结构学习(十)——串的操作
- Sequel中文文档-数据库-模式修改方法
- linux中直接 I/O 机制的介绍
- 利用TJSONArray向REST服务器发送文件
- 希腊字母 读音
- 用 IBM WebSphere DataStage 进行数据整合(3)
- 练练手
- MFC编辑框控件