统计2 泊松过程 大数定理 正态分布

来源:互联网 发布:r9s怎么清除相机数据 编辑:程序博客网 时间:2024/05/16 17:01

二项分布的方差:variance = np(1-p)

泊松过程

假设1.各个时间车流量没有差异
2.一段时的车流量对另一段时间没有影响:随机变量X=每小时某路口通过的车辆
E(X)=lambda = n*p (建模为二项分布) = 60(min/hour)*lambda/60 (cars/min)
P(X=k)=C(60,k)(lambda/60)^k(1-lambda/60)^(60-k)
如果1分钟通过不只一辆车,我们可以把区间分的更细,如分到秒:P(X=k)=C(3600,k)*…
一直分下去,得到的就是泊松分布。

P(X=k)= lim(n->无穷)(n,k)(lambda/n)^k(1-lambda/n)^(n-k)
=lim(n->无穷)(n!/((n-k)!k!))*…
=lim(n->无穷)n*(n-1)(n-2)…(n-k+1)*lambda^k/n^k(1-lambda/n)^n*(1-lambda/n)^(-k)
lim(n->无穷)n*(n-1)…(n-k+1)/n^k=1
原式=(lambda^k/k!)*e^(-lambda)

lim(x->无穷)(1+a/x)^x=e^a

lim(n->无穷)(1+1/n)^n = e
ps:e = 1+ 1/2! + 1/3! + .. + 1/n!

所以泊松分布:P(X=k)=lambda^k*e^(-lambda)/k!

大数定理 Law of Large Numbers

随机变量的n次观测X1,X2,X3,…Xn的平均值趋向于总体平均值(n->无穷)。也就是当样本量足够大的时候,样本均值接近总体均值或者是随机变量的期望值。

_
xn ->E(X) ,with n-> 无穷

正态分布

Normal Distribution Comparison,正态分布 高斯分布:可以说是统计学中最重要的概念。
这里写图片描述
(x-u)/sigma:离均值有多少个标准差那么远,叫标准z分数(standard z score)
ps:随机变量和的分布以正态分布为极限,即使这些实验的分布不是正态的。【金融里也喜欢用正态分布进行假设,最小二乘里误差的分布也假设是正态分布的】

二项分布当np很大时也趋向于正态分布,二者的均值和方差相等,可以近似计算。
标准差越小,钟形曲线越窄。

CDF:累积分布函数,-无穷到x
对于正态分布,均值左右一个标准差内的概率总是68.3%
正态分布习题:
1.下列哪些是正态分布,哪些不是?
(a)从拇指指尖到小指指尖的长度(和基因,成长有关,这是大量随机变量的和,所以近似服从正态分布:中心极限定理。也有可能是双峰分布:男的和女的手指间距离)
(b)公司员工的薪水分布:不是正态分布,是右偏态分布
(c)50位CEO工资的水平:可能接近正态分布
(d)100个一块钱的年份:左偏态分布:mean在median的左边
2.u=81,sigma=6.3,计算下面数字的z分数
(a) 65. z = (65-81)/6.3 =-2.53

经验法则:68-95-99.7

u-sigma<=X<=u+sigma:68.3%u-2sigma<=X<u+2sigma:95%u-3sigma<=X<=u+3sigma:P(X):99.7%

标准正态分布:standard normal distribution
mean = 0, variance = standard deviation = 1

中心极限定理

随着样本容量n的增大,独立同分布的m个随机变量[每个随机变量有n个样本]的均值分布服从正态分布。
实际中,n=10或15时就很接近正态分布了,收敛的很快。 样本容量越大,方差越小(样本均值估计和总体平均值越来越接近)