机器学习(2.7.2)数据知识积累——概率论-超几何分布
来源:互联网 发布:wps办公软件mac版免费 编辑:程序博客网 时间:2024/04/27 02:21
超几何分布是统计学上一种离散概率分布。它描述了由有限个物件中抽出n个物件,成功抽出指定种类的物件的次数(不归还)。称为超几何分布,是因为其形式与“超几何函数”的级数展式的系数有关。
在产品质量的不放回抽检中,若N件产品中有M件次品,抽检n件时所得次品数X=k,则P(X=k)=C(M,k)·C(N-M,n-k)/C(N,n), C(a b)为古典概型的组合形式,a为下限,b为上限,此时我们称随机变量X服从超几何分布(hypergeometric distribution)
(1)超几何分布的模型是不放回抽样
(2)超几何分布中的参数是M,N,n上述超几何分布记作X~H(N,n,M)。
产品抽样检查中经常遇到一类实际问题,假定在N件产品中有D件不合格品,即不合格率。
在产品中随机抽n件做检查,发现k件不合格品的概率为,k=0,1,2,...,min{n,M}。
亦可写作(与上式不同的是D可为任意实数,而C表示的组合数D为非负整数)
通常称这个随机变量X服从超几何分布。这种抽样检查方法等于无放回抽样。数学上不难证明,N趋近无穷,=(二项分布) 因此,在实际应用时,只要N>=10n,就可用二项分布近似描述不合格品个数。
也就是已经知道某个事件的发生概率,判断从中取出一个小样本,该事件以某一个机率出现的概率问题。
例:在一个口袋中装有30个球,其中有10个红球,其余为白球,这些球除颜色外完全相同。游戏者一次从中摸出5个球。摸到至少4个红球就中一等奖,那么获一等奖的概率是多少?
解:由题意可见此问题归结为超几何分布模型。
其中N = 30. D = 10. n = 5.
P(一等奖) = P(X=4) + P(X=5)
由公式,k=0,1,2,...得:
P(一等奖) = 106/3393
期望
对X~H(N,M,n),E(x)=nM/N
证明:引理一:∑{C(x,a)*C(d-x,b),x=0..min{a,d}}=C(d,a+b),考察(1+x)^a*(1+x)^b中x^d的系数即得。(另:还可以由超几何分布1=∑P(X=K),k=0,1,2....n得)
引理二:k*C(k,n)=n*C(k-1,n-1),易得。
正式证明:
EX=∑{k*C(k,M)*C(n-k,N-M)/C(n,N),k=0..min{M,n}}
=1/C(n,N)*∑{M*C(k-1,M-1)*C(n-k,N-M),k=1..min{M,n}}
//(提取公因式,同时用引理二变形,注意k的取值改变)
=M/C(n,N)*∑{C(k-1,M-1)*C(n-k,N-M),k=1..min{M,n}} (提取,整理出引理一的前提)
=M*C(n-1,N-1)/C(n,N) (利用引理一)
=Mn/N (化简即得)
方差
对X~H(N,M,n),D(X)=nM(N-M)(N-n)/[(N^2)(N-1)]
证明:
DX=E(X^2)-(EX)^2 (此公式利用定义式简单展开即得)
=∑{k^2*C(k,M)*C(n-k,N-M)/C(n,N),k=0..min{M,n}}-(Mn/N)^2
=1/C(n,N)*∑{M*k*C(k-1,M-1)*C(n-k,N-M),k=1..min{M,n}}-(Mn/N)^2(提取,变形)
=M/C(n,N)*∑{(k-1)*C(k-1,M-1)*C(n-k,N-M)+C(k-1,M-1)*C(n-k,N-M),k=1..min{M,n}}-(Mn/N)^2
(拆项,变形)
=M/C(n,N)*∑{(M-1)*C(k-2,M-2)*C(n-k,N-M),k=2..min{M,n}}+M/C(n,N)*∑{C(k-1,M-1)*C(n-k,N-M),k=1..min{M,n}}-(Mn/N)^2 (拆开∑,就是分组求和)
=M(M-1)*C(n-2,N-2)/C(n,N)+Mn/N-(Mn/N)^2
=nM(N-M)(N-n)/[(N^2)(N-1)] (化简即得)
超几何分布期望与方差和二项分布的联系
视M/N=p
则EX=np
DX=np(1-p)*(N-n)/(N-1)
可以看出,均值的公式形式上与二项分布是一至的,而方差也只相差(N-n)/(N-1)。
这一点即有利于对这两个公式的记忆,又从另一个角度说明了:“因此,在实际应用时,只要N>=10n,可用二项分布近似描述不合格品个数。”
补充一个ASP的计算程序,估计明白计算机语言的大家都能看明白:已经去掉了大数阶乘溢出的问题。
0 0
- 机器学习(2.7.2)数据知识积累——概率论-超几何分布
- 机器学习(2.1)数据知识积累——向量
- 机器学习(2.3)数据知识积累——排列组合
- 机器学习(2.4)数据知识积累——高等数学
- 机器学习(2.100)数据知识积累——香农熵
- 离散分布——二项分布、多项分布、超几何分布
- 机器学习小组知识点12:超几何分布(Hyper-Geometric Distribution)
- Machine Learning1——机器学习关于数据分析和概率论和线性代数及矩阵的知识
- 机器学习预备知识之概率论(上)
- 机器学习预备知识之概率论(下)
- 机器学习中概率论知识复习
- 机器学习1——概率论
- 机器学习——概率论基础
- 机器学习中的数学知识——概率论
- 机器学习小组知识点11:几何分布(Geometric Distribution )
- 【机器学习】机器学习(一)——基于概率论的分类
- 几何分布和超几何分布
- Excel在统计分析中的应用—第六章—概率分布及概率分布图-Part4-离散型概率分布(超几何分布函数HYPGEOM.DIST()的应用)
- leetcode之137. Single Number II(C++解法 哈希表计数)
- 工厂模式Factory
- Android使用React Native 出现的问题
- Struts工作原理和入门小实例
- 保存数据时结束编辑
- 机器学习(2.7.2)数据知识积累——概率论-超几何分布
- Linux下查找特定时间创建的文件
- 云服务中消灭小黄图的大宝剑---X次元口袋
- JNDI学习总结(三)——Tomcat下使用Druid配置JNDI数据源
- redis常用命令
- jQuery之$(document).ready()使用介绍
- 【SSM 1】SpringMVC、Spring和Struts的区别
- 机器视觉-kinect
- [396]Rotate Function