机器学习（2.7.2）数据知识积累——概率论-超几何分布

来源：互联网发布：wps办公软件mac版免费编辑：程序博客网时间：2024/04/27 02:21

超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件，成功抽出指定种类的物件的次数（不归还）。称为超几何分布，是因为其形式与“超几何函数”的级数展式的系数有关。

在产品质量的不放回抽检中，若N件产品中有M件次品，抽检n件时所得次品数X=k，则P(X=k)=C（M，k）·C(N-M,n-k)/C(N,n）， C（a b）为古典概型的组合形式，a为下限，b为上限，此时我们称随机变量X服从超几何分布（hypergeometric distribution）

（1）超几何分布的模型是不放回抽样

（2）超几何分布中的参数是M,N,n上述超几何分布记作X~H(N,n,M）。

产品抽样检查中经常遇到一类实际问题，假定在N件产品中有D件不合格品，即不合格率

。

在产品中随机抽n件做检查，发现k件不合格品的概率为

,k=0,1,2,...,min{n,M}。

亦可写作

（与上式不同的是D可为任意实数，而C表示的组合数D为非负整数）

通常称这个随机变量X服从超几何分布。这种抽样检查方法等于无放回抽样。数学上不难证明，N趋近无穷，

(二项分布) 因此，在实际应用时，只要N>=10n，就可用二项分布近似描述不合格品个数。

也就是已经知道某个事件的发生概率，判断从中取出一个小样本，该事件以某一个机率出现的概率问题。

例：在一个口袋中装有30个球，其中有10个红球，其余为白球，这些球除颜色外完全相同。游戏者一次从中摸出5个球。摸到至少4个红球就中一等奖，那么获一等奖的概率是多少？

解：由题意可见此问题归结为超几何分布模型。

其中N = 30. D = 10. n = 5.

P（一等奖） = P(X=4） + P(X=5）

由公式

,k=0,1,2,...得：

P（一等奖） = 106/3393

期望

对X~H(N，M，n），E(x)=nM/N

证明：引理一：∑{C(x,a)*C(d-x,b),x=0..min{a,d}}=C(d,a+b），考察（1+x)^a*（1+x)^b中x^d的系数即得。（另：还可以由超几何分布1=∑P(X=K),k=0,1,2....n得）

引理二：k*C(k,n)=n*C(k-1,n-1），易得。

正式证明：

EX=∑{k*C(k,M)*C(n-k,N-M)/C(n,N),k=0..min{M,n}}

=1/C(n,N)*∑{M*C(k-1,M-1）*C(n-k,N-M),k=1..min{M,n}}

//（提取公因式，同时用引理二变形，注意k的取值改变）

=M/C(n,N)*∑{C(k-1,M-1）*C(n-k,N-M),k=1..min{M,n}} （提取，整理出引理一的前提）

=M*C(n-1,N-1）/C(n,N) （利用引理一）

=Mn/N （化简即得）

方差

对X~H(N,M,n)，D(X)=nM(N-M)(N-n)/[(N^2）（N-1）]

证明：

DX=E(X^2）-(EX)^2 （此公式利用定义式简单展开即得）

=∑{k^2*C(k,M)*C(n-k,N-M)/C(n,N),k=0..min{M,n}}-(Mn/N)^2

=1/C(n,N)*∑{M*k*C(k-1,M-1）*C(n-k,N-M),k=1..min{M,n}}-(Mn/N)^2（提取，变形）

=M/C(n,N)*∑{(k-1）*C(k-1,M-1）*C(n-k,N-M)+C(k-1,M-1）*C(n-k,N-M),k=1..min{M,n}}-(Mn/N)^2

（拆项，变形）

=M/C(n,N)*∑{(M-1）*C(k-2,M-2）*C(n-k,N-M),k=2..min{M,n}}+M/C(n,N)*∑{C(k-1,M-1）*C(n-k,N-M),k=1..min{M,n}}-(Mn/N)^2 （拆开∑，就是分组求和）

=M(M-1）*C(n-2,N-2）/C(n,N)+Mn/N-(Mn/N)^2

=nM(N-M)(N-n)/[(N^2）（N-1）] （化简即得）

超几何分布期望与方差和二项分布的联系

视M/N=p

则EX=np

DX=np（1-p)*(N-n)/(N-1）

可以看出，均值的公式形式上与二项分布是一至的，而方差也只相差（N-n)/(N-1）。

这一点即有利于对这两个公式的记忆，又从另一个角度说明了：“因此，在实际应用时，只要N>=10n，可用二项分布近似描述不合格品个数。”

补充一个ASP的计算程序，估计明白计算机语言的大家都能看明白：已经去掉了大数阶乘溢出的问题。

0 0