随机取样问题
来源:互联网 发布:淘宝类目分析表格 编辑:程序博客网 时间:2024/05/09 07:06
随机取样问题,在《计算机程序设计艺术》(volume 2 chapter 3)中得到了详细的讲解,关于该问题的详细探讨可以翻阅该书相应章节。
随机取样问题可以分为:
1、 确定数目元素的随机取样,可以表述为:从N个元素中获得K个相异且随机的元素。
2、 不确定数目元素的随机取样,可以表述为:从一个数据流中获得k个相异且随机的元素。
其实第二个问题包含着第一个问题,我们只要探讨第二个问题即可,我直接给出下面的算法吧,首先要注意取样问题的描述:“k个”“相异”“随机”,代码如下:
T* random_sample(stream s, int k)
{
T* rand_list=new T[k];
int i=k;
s.open();
/*store first k elements in stream*/
while(k-->=0)
rand_list[i]=s.next();
i=k;
while(!s.end())
{
i++;
int idx=rand(0, i-1);//create random number [0, i-1]
if(idx<=k-1)//[0,k-1]
rand_list[idx]=s.next();
}
}
下面对其正确性进行证明,正确性应该保证“k个”“相异”“随机”,前两个条件显然成立,开始状态前两个状态就成立,函数执行过程中,每次替换的元素都不相同(我们认为在stream中不同位置的元素不同),对于“随机”的证明可以使用数学归纳法进行:
待证明问题,对于任意n>=k,经过上述方法后,得到的结果中任何一个元素出现的概率均为k/n。
1、 当n=k时,rand_list[]中存储前k个元素,p=k/n=k/k=1成立。
2、 假设当n=i时,命题成立:i个元素出现在rand_list[]中的概率为k/i。
当n=i+1时,执行上述算法,我们只关注最后一步:对于第i+1个元素的操作。
对第i+1个元素执行上述算法之前,对于前i个元素中任意一个元素,它们在rand_list[]中出现的概率为k/i,我们以k/(i+1)的概率去替换rand_list[]中的元素,前i个元素中任意一个元素被替换的概率为:
k(1/i) * ( 1/(i+1))
前i个元素中任意一个元素最终被取到的概率:
k/I - k(1/i) * ( 1/(i+1)) = k/(i+1)
对于第i+1个元素,它被取到的概率可以直接计算得到:
P(i+1)=k/(i+1)
所以当n=i+1时,上述命题也成立。
下面给两个相关的题目:
1、 给定一个未知长度的整数流,如何随机选取一个数
2、 给定一个数据流,其中包含无穷尽的搜索关键字(比如,人们在谷歌搜索时不断输入的关键字)。如何才能从这个无穷尽的流中随机的选取1000个关键字?
- 随机取样问题
- 随机取样问题
- 随机取样问题的实现
- 取样问题-获取随机样本
- 概率随机问题【2】 取样与概率
- 随机取样问题的几种方法比较
- 取样问题
- 取样问题
- 取样问题
- 取样问题
- 取样问题
- 取样问题
- [读书笔记]随机取样
- 随机取样算法
- hive-随机取样
- 分析测试中的取样要求-随机取样
- 随机取样和洗牌算法
- 概率取样问题
- Oracle 百万行数据查询优化
- Android无信号和上网问题已解决,请大家借鉴
- Scale总结
- 单片机电子密码锁源代码
- Magento 调出TopSearch关键字
- 随机取样问题
- 教你如何开关Android的APN网络
- DirectShow查找和某个filter的上下相连的filter
- Android模拟器 本地电脑上网配置 详解
- cout的I/O流的数据格式编排
- 黑客命令
- JVM内存段分配,Java垃圾回收调优,Heap设定
- Win7下print spooler服务自动停止的解决方法
- iphone数据持久化存储