随机数生成问题分类以及题目汇总
来源:互联网 发布:android实现java线程池 编辑:程序博客网 时间:2024/04/27 00:45
最近在看关于随机数的生成问题。计算机程序设计艺术(第二卷第三章)以及编程珠玑(第12章)上都有讨论。就结合这两本书总结下。这里主要讲三个算法分别是
1.选择抽样算法
2.水库抽样算法
3.洗牌算法
1. 选择抽样算法:
问题描述:从含有N个记录的一个文件中等概率的随机选取n个记录。
思路:如第一个记录以n/N的概率被选中,果我们已经在前t个记录中选择了m个项目,则对第t+1个记录应以概率(n-m)/(N-t)加以选择(也就是说在剩余的N-t个记录中选择n-m个记录。每个记录被选取的概率应为(n-m)/(N-t))算法看似不合理,其实已经证明是正确的,详见计算机程序设计艺术
算法(选择抽样技术):从N个记录的一个集合中随机的选择n个记录,其中0<n≤N 。
S1.[初始化] 置t =0, m=0 (在本算法中m表示已经选择的记录数,而t表示我们已经处理过的输入记录的总数)
S2.[生车U] 生成在0到1之间一致的分布的随机数U
S3 [检验] 如果(N-t)U ≥n-m 则转到步骤S5
S4 [选择] 把下一个记录作为样本,m和t加1.如果m < n ,则转到步骤S2;否则抽样完成,算法终止
S5 [跳] 跳过下一个记录(不把它选为样本),t 加1,并转到步骤S2
举例:
实现:输出0到n-1(包含0和n-1)个范围内的m个随机整数的有序列表,不允许重复。(注意编号是从0开始,编号从1开始类似)
void genKnuth(int m, int n)
{
for(int i = 0; i < n; i++)
{
if(bigrand() % n-i < m) //相当于前面算法描述中S3: 在程序运行时,if条件成立的情况是 bigrand()%n-i 的结果为0 到m-1 共m //个。概率为 m/n-i 说明:我们亦可以把if(bigrand()%n-i < m) 写为 M = random(1, n-i) if M < m........
{
cout << i << "\n";
m--;
}
}
}
为了方便理解,我们贴出伪代码:
select = m
remaining = n
for i = [0, n)
if(bigrand() % remaining) < select
print i
select--
remaining-- // 相当于S5中t加1 也就是剩余的减1
另附算法:
上述算法的运行时间与n成正比,如果n很大的话会比较耗时。使用下面改进算法可以在一定程度上减少运行时间
void gensets(int m, int n)
{
set<int> S;
while(S.size() < m)
{
S.insert(bigrand()%n);
}
set<int>::iterator i ;
for(i = S.begin(); i != S.end(); ++i)
cout << *i <<endl;
}
当m相对于n较小时完整程序需要O(mlogm)时间(插入算法耗时O(logm),遍历算法O(m))。此算法的缺点是m如果很大的话程序空间开销会比较大(用set保存m)
2. 水库抽样算法
问题描述:从确切大小未知但是大于等于n个一个文件中等概率随机选择n个记录(也就是说N未知的情况下随机选择n个记录)。
思路:用一个称作“水库”的辅助文件存放有作为最后抽样的候选者的所有记录。下面算法使用具有不同索引 I[j] 的一张表,其中
1 ≤ j ≤ n ,每个索引指向水库的一个记录。当把K个记录放入水库后,以后对扫描到的K+i 到N个记录每个记录都以K/K+i 的概率随机替换水库中的记录
算法(水库抽样):
R1.[初始化] 输入前n个记录,并把它们复制到水库中。对于1 ≤ j ≤ n 置I[j] = j ,并置t = m = n(如果抽样文件少于n个记录,有必要中断
算法并报告失败。在算法运行期间,索引 I[1],....,I[n]指向当前抽样中的记录; m是水库的大小, t是迄今为止已经处理过的输入记录数)
R2.[文件结束?] 如果无记录输入,则转到步骤R6
R3[生成并检验] t增1,然后生成1和t(含t)之间的一个随机数M。 如果M> n 则转到R5
R4[加入到水库中] 复制输入文件下一个记录到水库中,m赠1并置I[M] = m (以前由I[M]指示的记录现在在抽样中又新的记录代替)转到R2
R5[跳] 跳过输入文件的下一个记录(不把它包含在水库中),并且返回步骤R2
R6[第二次扫描] 对 I表的项进行排序使得I[1] < ..... < I[n]; 然后扫描水库,并把具有这些索引的记录复制到保存最后抽样的输出文件中
举例:
实现:输出1到n(包含1和n)个范围内的m个随机整数的有序列表,不允许重复。
for i= k+1 to N
M=random(1, i);
if( M ≤ k) // 注:网上大多数算法都写成 M < K 那应该是不正确的。 此句对应步骤R3 。M <= K 的概率为 K/i
SWAP(I[M], I[i])
end for
3.洗牌算法
// 相当于有n! 个选择。 第一个索引位置有n中选择。 第二个索引位置有n-1个选择(即random(2,n))以此类推.............
for i:=1 to n do swap(a[i], a[random(i,n)]); // 注意加粗的是i不是1
此算法的详细描述可以参见:http://bbs.bccn.net/thread-331122-1-1.html 与http://topic.csdn.net/u/20120221/14/4eb5fad8-618d-41d1-8ac6-cb6999d4fc57.html
题目1:(来自:http://blog.csdn.net/hackbuteer1/article/details/7486704)
已知有个rand7()的函数,返回1到7随机自然数,让利用这个rand7()构造rand10() 随机1~10。
分析:要保证rand10()在整数1-10的均匀分布,可以构造一个1-10*n的均匀分布的随机整数区间(n为任何正整数)。假设x是这个1-10*n区间上的一个随机整数,那么x%10+1就是均匀分布在1-10区间上的整数。由于(rand7()-1)*7+rand7()可以构造出均匀分布在1-49的随机数(原因见下面的说明),可以将41~49这样的随机数剔除掉,得到的数1-40仍然是均匀分布在1-40的,这是因为每个数都可以看成一个独立事件。
下面说明为什么(rand7()-1)*7+rand7()可以构造出均匀分布在1-49的随机数:
首先rand7()-1得到一个离散整数集合{0,1,2,3,4,5,6},其中每个整数的出现概率都是1/7。那么(rand7()-1)*7得到一个离散整数集合A={0,7,14,21,28,35,42},其中每个整数的出现概率也都是1/7。而rand7()得到的集合B={1,2,3,4,5,6,7}中每个整数出现的概率也是1/7。显然集合A和B中任何两个元素组合可以与1-49之间的一个整数一一对应,也就是说1-49之间的任何一个数,可以唯一确定A和B中两个元素的一种组合方式,反过来也成立。由于A和B中元素可以看成是独立事件,根据独立事件的概率公式P(AB)=P(A)P(B),得到每个组合的概率是1/7*1/7=1/49。因此(rand7()-1)*7+rand7()生成的整数均匀分布在1-49之间,每个数的概率都是1/49。(注:集合A每个元素之间差7个连续数字,将 rand7 得到的1-7 放到空隙正好是连续的整数1-49.每个数字出现的概率相同)
程序:
- int rand_10()
- {
- int x = 0;
- do
- {
- x = 7 * (rand7() - 1) + rand7();
- }while(x > 40);
- return x % 10 + 1;
- }
问题描述
已知random3()这个随机数产生器生成[1, 3]范围的随机数,请用random3()构造random5()函数,生成[1, 5]的随机数?
问题分析
如何从[1-3]范围的数构造更大范围的数呢?同时满足这个更大范围的数出现概率是相同的,可以想到的运算包括两种:加法和乘法
考虑下面的表达式:
3 * (random3() – 1) + random3();
可以计算得到上述表达式的范围是[1, 9] 而且数的出现概率是相同的,即1/9
下面考虑如何从[1, 9]范围的数生成[1, 5]的数呢?
可以想到的方法就是 rejection sampling 方法,即生成[1, 9]的随机数,如果数的范围不在[1, 5]内,则重新取样
解决方法
- int random5()
- {
- int val = 0;
- do
- {
- val = 3 * (random3() - 1) + random3();
- }while(val > 5);
- return val;
- }
将这个问题进一步抽象,已知random_m()随机数生成器的范围是[1, m] 求random_n()生成[1, n]范围的函数,m < n &&n <= m *m
一般解法:
- int random_n()
- {
- int val = 0;
- int t; //t为n的最大倍数,且满足t<m*m
- do
- {
- val = m * (random_m() - 1) + random_m();
- }while(val > t);
- return val;
- }
题目2:
已知随机函数rand(),以p的概率产生0,以1-p的概率产生1,现在要求设计一个新的随机函数newRand(), 使其以1/n的等概率产生1~n之间的任意一个数。
解决思路:可以通过已知随机函数rand()产生等概率产生0和1的新随机函数Rand(),然后调用k(k为整数n的二进制表示的位数)次Rand()函数,得到一个长度为k的0和1序列,以此序列所形成的整数即为1--n之间的数字。注意:从产生序列得到的整数有可能大于n,如果大于n的话,则重新产生直至得到的整数不大于n。
第一步:由rand()函数产生Rand()函数,Rand()函数等概率产生0和1。
- int Rand()
- {
- int i1 = rand();
- int i2 = rand();
- if(i1==0 && i2==1)
- return 1;
- else if(i1==1 && i2==0)
- return 0;
- else
- return Rand();
- return -1;
- }
第三步:调用k次Rand()产生随机数。
- int newRand()
- {
- int result = 0;
- for(int i = 0 ; i < k ; ++i)
- {
- if(Rand() == 1)
- result |= (1<<i);
- }
- if(result > n)
- return newRand();
- return result;
- }
- 随机数生成问题分类以及题目汇总
- 【南阳OJ分类之大数问题】题目+AC代码汇总
- 动归题目分类汇总
- sql 生成随机数 以及不重复随机数
- 随机数的生成问题??
- 随机数生成问题小结
- Lua 随机数生成问题
- 生成随机数问题
- Lua 随机数生成问题
- C# 生成随机数问题
- PHP随机数生成问题
- 随机数生成问题
- Lua 随机数生成问题
- Lua 随机数生成问题
- 生成随机数问题
- Lua 随机数生成问题
- Lua 随机数生成问题
- lua随机数生成问题
- MFC中动态创建对象的一点思考
- ibatis数据库连接配置
- 有序 循环数组的二分查找
- 解QC9不支持IE 7,IE 8访问
- 你一生追求的是利益还是快乐?
- 随机数生成问题分类以及题目汇总
- 指针
- 破解 VISTA & WIN7对直接磁盘写入的防护 win7 磁盘不可写 win7磁盘被写保护 win7磁盘写保护
- linux下使用write\send发送数据报 EAGAIN : Resource temporarily unavailable 错
- Macfee 卸载过程
- web性能优化之- js自定义函数延迟执行 jquery插件
- Oracle11g修改RAC SCAN IP
- iconv: 未知 189 处的非法输入序列
- 字符串转换为HTML字符的方法