水库抽样算法精简总结
来源:互联网 发布:淘宝网店的推广方法 编辑:程序博客网 时间:2024/04/29 14:09
水库抽样算法
问题描述
输入:一组数据,大小未知
输出:这组数据的K个均匀抽取
要求:仅扫描一次
总体要求:从N个元素中随机的抽取k个元素,其中N无法确定,保证每个元素抽到的概率相同
解决方案
一些符号:为要抽样的个数,N为总体个数位置,n为当前遍历的元素的位置。pool为k大小的数组,用来保存抽到的样本
n<=k,把当前值放入pool中,构成初步样本
n>k,生成一个随机数p,如果p
证明—归纳法
假设:当第n个元素以k/n,前n-1个元素也被选中的概率也为k/n
证明:
1)当n<=k时,出现在pool中的每个元素概率都是相同的,都为1
2)当n=k+1时,计算前k个元素在pool的概率
a.前k个元素在pool中的元素概率都为1
b.由假设得,第k+1个元素被选中的概率为:k/(k+1),pool任意元素被替换的概率为(k/(k+1))*(1/k)=1/(k+1),没被替换(即选中)的概率为1-1/(k+1)=k/(k+1).
由a*b=1*k/(k+1)=k/(k+1),前k个元素和k+1元素被选中的概率都为k/k+1。
3)当n>k+1时,计算前n-1个元素在pool的概率
a.前n-1个元素在pool中被选择的的概率为k/(n-1)
b.由假设得,第n个元素被选中的概率为:k/n,pool任意元素被替换的概率为(k/n)*(1/k)=1/n,没被替换(即选中)的概率为1-1/n=(n-1/)n。
由a*b=(k/(n-1))*((n-1)/n)=k/n,前k个元素和k+1元素被选中的概率都为k/n。
因为假设成立,所以到数据结束时,所有元素的抽到的概率都为k/N
- 水库抽样算法精简总结
- 水库抽样算法
- 亚线性空间算法-水库抽样算法
- 亚线性空间算法-水库抽样算法
- 水库抽样问题
- 大数据算法-空间时间亚线性算法举例(水库抽样,平面图直径)
- 大数据算法MOOC笔记3:水库抽样Reservoir Sampling(蓄水池问题)
- MCMC抽样算法要点总结
- 抽样算法
- Reservoir Sampling 蓄水池抽样算法,经典抽样
- 简单抽样算法介绍
- 随机抽样算法
- 蓄水池抽样算法
- 抽样率转换算法
- 蓄水池抽样算法
- 蓄水池抽样 分类: 算法
- 随机抽样一致性算法
- Sampling 蓄水池抽样算法
- linux shell编程——if
- 基于DL的计算机视觉(4)-- SGD
- poj1113Wall(凸包周长计算)
- 二维数组和指针
- Comma.AI 开源其首次成功无人驾驶的旅行数据
- 水库抽样算法精简总结
- Super Jumping! Jumping! Jumping!(跳跳跳,就是跳)~~~
- 句柄 句柄无效
- TCP UDP Socket调试教程
- C# 委托与事件
- android 如何动态申请权限
- 翻转单词顺序列
- Android移动开发者必须知道的Deep Linking技术
- 计算几何之判断线段相交