数据挖掘中的抽样算法
来源:互联网 发布:qq好友不显示网络状态 编辑:程序博客网 时间:2024/05/16 07:05
依次考虑整数0,1,2。。。n-1,通过适当的随机测试来对每个整数进行选择,这样输出就是有序的了。
所以,我们可以总结出抽样算法的设计规律:就是已知概率(随机),通过算法设计实验,生成样本空间,定义问题要求事件,让事件发生的概率为已知概率,然后进一步按照该概率来完成抽样。
用一个数据结构R记录现在已选择的行号。
然后对第x行(x > m),以m/x的概率选中这一行,然后用x随机替换掉当前R中的某一个值,ie,每一行都有1/m的概率被替换。
这样遍历到文件末尾,最后R中的m个就是随机选择出的m个。
无需知道文件总行数,因为每次选择概率是动态的
可以证明这m个是随机的
Init : a reservoir with the size: k
for i= k+1toN
M=random(1, i);
if( M < k)
SWAPthe Mth valueandith value
end for
证明如下:
http://wansishuang.iteye.com/blog/443902
每次都是以 k/i 的概率来选择
例: k=1000的话, 从1001开始作选择,1001被选中的概率是1000/1001,1002被选中的概率是1000/1002,与我们直觉是相符的。
接下来证明:
假设当前是i+1, 按照我们的规定,i+1这个元素被选中的概率是k/i+1,也即第 i+1 这个元素在蓄水池中出现的概率是k/i+1
此时考虑前i个元素,如果前i个元素出现在蓄水池中的概率都是k/i+1的话,说明我们的算法是没有问题的。
对这个问题可以用归纳法来证明:k < i <=N
1.当i=k+1的时候,蓄水池的容量为k,第k+1个元素被选择的概率明显为k/(k+1), 此时前k个元素出现在蓄水池的概率为 k/(k+1), 很明显结论成立。
2.假设当 j=i 的时候结论成立,此时以 k/i 的概率来选择第i个元素,前i-1个元素出现在蓄水池的概率都为k/i。
证明当j=i+1的情况:
即需要证明当以 k/i+1 的概率来选择第i+1个元素的时候,此时任一前i个元素出现在蓄水池的概率都为k/(i+1).
前i个元素出现在蓄水池的概率有2部分组成, ①在第i+1次选择前得出现在蓄水池中,②得保证第i+1次选择的时候不被替换掉
①.由2知道在第i+1次选择前,任一前i个元素出现在蓄水池的概率都为k/i
②.考虑被替换的概率:
首先要被替换得第 i+1 个元素被选中(不然不用替换了)概率为 k/i+1,其次是因为随机替换的池子中k个元素中任意一个,所以不幸被替换的概率是 1/k,故
前i个元素中任一被替换的概率 = k/(i+1) * 1/k = 1/i+1
则没有被替换的概率为: 1 - 1/(i+1) = i/i+1
综合① ②,通过乘法规则
得到前i个元素出现在蓄水池的概率为 k/i * i/(i+1) = k/i+1
故证明成立
- 数据挖掘中的抽样算法
- 数据挖掘中的抽样方法--简单记录
- 数据挖掘与数据抽样
- 数据挖掘:R语言实战(抽样)
- 数据挖掘中的几个算法—adaboost
- 数据挖掘工具weka中的算法列表
- 数据挖掘中的常用聚类算法
- 数据挖掘中的十个著名算法
- 数据挖掘中的分类算法比较
- 数据挖掘中的十大算法
- 数据挖掘中的聚类算法综述
- 数据挖掘中的十大经典算法
- R语言中的数据挖掘算法
- 数据挖掘中的 10 大算法
- 数据挖掘中的 10 大算法
- 数据挖掘经典算法中的EM算法个人见解
- 数据工程师必知算法:蓄水池抽样
- 数据工程师必知算法:蓄水池抽样
- 字符集简史
- oracle 异步IO
- 较少遇到的错误—严重: StandardWrapper.Throwable—java.lang.ArrayIndexOutOfBoundsException: 48188
- makefile---include的使用
- 删除节点及所有子节点
- 数据挖掘中的抽样算法
- rcp(插件开发)Job 进度条
- Dispatch Sources
- 使用EWS访问所有收件人邮件(未验证,有机会验证)
- Nginx源码剖析之内存池,与内存管理
- Codeigniter TimeZone 时区问题及 PHP 时区设定
- Subversion 文件被锁,提交失败
- php开放之MVC框架
- GlusterFS性能测试