JAVA自定义算法产生正态分布随机数

来源：互联网发布：win7未识别的网络编辑：程序博客网时间：2024/06/05 05:27

原文章地址：http://www.cnblogs.com/zztt/p/4025207.html

一、为什么需要服从正态分布的随机函数

一般我们经常使用的随机数函数 Math.random() 产生的是服从均匀分布的随机数，能够模拟等概率出现的情况，例如扔一个骰子，1到6点的概率应该相等，但现实生活中更多的随机现象是符合正态分布的，例如20岁成年人的体重分布等。

假如我们在制作一个游戏，要随机设定许许多多 NPC 的身高，如果还用Math.random()，生成从140 到 220 之间的数字，就会发现每个身高段的人数是一样多的，这是比较无趣的，这样的世界也与我们习惯不同，现实应该是特别高和特别矮的都很少，处于中间的人数最多，这就要求随机函数符合正态分布。

二、正态分布复习

图片来自：http://zh.wikipedia.org/zh-cn/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83

具体性质也请查阅上面链接，描述正态分布的主要特征是均值和方差，如上图，最左的倒钟形图的均值为-2, 其余为0 ;

方差越大，钟形越扁平，方差越小越陡;

密度函数图像关于均值对称。
在x=μ±σ处，曲线有拐点。
函数曲线下68.26%的面积在平均数左右的一个标准差σ的区间内。
95.44%的面积在平均数左右两个标准差2σ的区间内。
99.74%的面积在平均数左右三个标准差3σ的区间内。

当均值为0，方差为 1 时称为标准正态分布;

三、由均匀分布经 “Box-Muller法” 转换为正态分布

通过查阅文献可知（请参见：http://en.wikipedia.org/wiki/Box%E2%80%93Muller_transform），有一个称为 Box-Muller (1958) 转换的算法能够将两个在区间（0,1] 的均匀分布转化为标准正态分布，其公式为：

y1 = sqrt( - 2 ln(u) ) cos( 2 pi v )

y2 = sqrt( - 2 ln(u) ) sin( 2 pi v )

因为三角函数计算较慢，我们可以通过上述公式的一个 polar form（极坐标形式）能够简化计算，

算法描述如下：

function getNumberInNormalDistribution(mean,std_dev){    return mean+(randomNormalDistribution()*std_dev);}function randomNormalDistribution(){    var u=0.0, v=0.0, w=0.0, c=0.0;    do{        //获得两个（-1,1）的独立随机变量        u=Math.random()*2-1.0;        v=Math.random()*2-1.0;        w=u*u+v*v;    }while(w==0.0||w>=1.0)    //这里就是 Box-Muller转换    c=Math.sqrt((-2*Math.log(w))/w);    //返回2个标准正态分布的随机数，封装进一个数组返回    //当然，因为这个函数运行较快，也可以扔掉一个    //return [u*c,v*c];    return u*c;}

因此，假如我们要获得均值为180，要68.26%左右的NPC身高都在[170,190]之内，即1个标准差范围内，因此标准差为10, 可以通过getNumberInNormalDistribution(180,10) 调用，我们实验1000000词，得到结果如下：

// 身高：频率128:1132:1133:1134:1135:1136:2137:4138:8139:11140:14141:19142:28143:41144:54145:80146:133147:153148:235149:333150:429151:598152:764153:1059154:1314155:1776156:2290157:2835158:3503159:4373160:5513161:6475162:7809163:9437164:11189165:13282166:15020167:17239168:19215169:21597170:24336171:26684172:29000173:31413174:33179175:35027176:37084177:38047178:38968179:39635180:39700181:39548182:38960183:38674184:36948185:35220186:33224187:31038188:29198189:26668190:23893191:21662192:19476193:16898194:15056195:13046196:10971197:9456198:7928199:6697200:5370201:4334202:3548203:2810204:2330205:1765206:1350207:1093208:797209:595210:371211:328212:255213:165214:121215:91216:71217:29218:32219:28220:20221:6222:7223:7224:3225:2228:1

绘制成柱状图如下：

可见，这是有着非常明显的正态分布图像特征。

四、由均匀分布叠加获得正态分布

我们需要祭出万能的中心极限定理。

根据独立同分布的中心极限定理：设随机变量X1，X2，…Xn,…相互独立，服从同一分布，且数学期望为μ，标准差为σ (σ>0)，则随机变量之和的标准化变量:

Y=((X1+X2+…+Xn)-nμ)/(sqrt(n)*sqrt(σ)) 近似服从标准正态分布 N(0，1)

如果我们将足够多个均匀分布随机变量相加，相加之和将服从正态分布。但是，我们需要累加多少个均匀分布才能较好低近似正态分布呢？

由于 X~U(0, 1) , 可得 μ=1/2， σ=sqrt(1/12)，代入上面的式子即可近似模拟随机变量之和的概率密度函数(p.d.f).

下图是由2个服从 U(0，1) 分布的随机变量相加得到的 p.d.f 图像：

如果我们增加累加的均匀分布的数量会怎样呢？

上图是 n=3 时的图像，可以看到正态分布的形状出来了，但顶端还略为平缓。

特别低，当n=12时 (随机变量(X1+X2+…+Xn)的均值为6，方差为1) 这时有一个很好的特点，公式 Y=((X1+X2+…+Xn)-nμ)/(sqrt(n)*sqrt(σ)) 的分母正好为1，因此简化成了 Y=((X1+X2+…+Xn)-nμ)，非常便于编程计算，并且已经非常接近于标准正态分布，请见下图：

也就是说均值为μ，标准差为σ 的独立同分布变量 X1，X2, …, Xn 的算数平均数 T=(X1+X2+ …+ Xn)/n，当n充分大时，近似地服从均值为μ，方差为σ*σ/n 的正态分布。

最后，代码如下：

function getNumberInNormalDistribution(mean,std_dev){        return mean+(uniform2NormalDistribution()*std_dev);}function uniform2NormalDistribution(){    var sum=0.0;    for(var i=0; i<12; i++){        sum=sum+Math.random();    }    return sum-6.0;}

同样，将产生100万个随机数按频率画出直方图如下：

阅读全文

0 0