泊松分布知识总结及例子

来源：互联网发布：学生成绩表 sql语句编辑：程序博客网时间：2024/05/17 10:28

泊松分布知识总结及例子

泊松分布经常出现在IT类技术面试中，虽然工作中我还没遇到需要用泊松分布解决的问题，但我想深入理解泊松分布对于服务器处理访问请求，以及对各种小概率事件的估计预测都有重要作用，所以花时间整理了下资料，以备忘及分享讨论。

泊松分布

Poisson分布（法语：loi de Poisson，英语：Poisson distribution），译名有泊松分布、普阿松分布、卜瓦松分布、布瓦松分布、布阿松分布、波以松分布、卜氏分配等，又称泊松小数法则（Poisson law of small numbers），是一种统计与概率学里常见到的离散概率分布，由法国数学家西莫恩·德尼·泊松（Siméon-Denis Poisson）在1838年时发表。

泊松分布适合于描述单位时间内随机事件发生的次数的概率分布。如某一服务设施在一定时间内受到的服务请求的次数，电话交换机接到呼叫的次数、汽车站台的候客人数、机器出现的故障数、自然灾害发生的次数、DNA序列的变异数、放射性原子核的衰变数，宇宙中单位体积内星球的个数，耕地上单位面积内杂草的数目等。

泊松分布的概率质量函数为：

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生率。

泊松分布的由来

在二项分布的伯努利试验中，如果试验次数n很大，二项分布的概率p很小，且乘积λ= n p比较适中，则事件出现的次数的概率可以用泊松分布来逼近。事实上，二项分布可以看作泊松分布在离散时间上的对应物。

证明如下。首先，回顾e的定义：

二项分布的定义：

如果令, 趋于无穷时的极限:

所以，实验结果满足泊松分布的实验即为泊松过程。泊松过程把离散的伯努利过程变得连续化了：原来是抛n次硬币，现在变成了无穷多次抛硬币；原来某次抛硬币得到正面的概率是p，而现在p无限接近于0（p=lambda/n），即：非常难抛出正面朝上的硬币；但是n次实验中硬币朝上的次数的期望不变，即lambda恒定。在泊松过程中，我们把抛出硬币正面这样的事件叫做到达（Arrival）。把单位时间内到达的数量，叫做到达率（Arrival Rate）。

故，泊松过程需要满足以下三个性质：

1. 在任意单位时间长度内，到达率是稳定的。对应于无穷次抛硬币的例子，我们相当于把一个单位时间分割成了无穷次抛硬币的实验，每次实验产生正面的概率都是一样的（为lambda/n），而在这无穷个抛硬币实验之后（即一个单位时间之后）我们期望能抛出lambda个正面的硬币。这个性质类比于在有限次抛硬币（二次分布）的例子中保证了每次掷出硬币为正面的概率都为p。

2. 未来的实验结果与过去的实验结果无关。对应于无穷次抛硬币的例子，之前不管抛出了多少个正面和反面的硬币，都不会影响之后硬币出现的结果。

3. 在极小的一段时间内，有1次到达的概率非常小，没有到达的概率非常大。对应于无穷次抛硬币的例子，我们发现硬币朝上的概率p=lambda/n趋向于0。

举个例子

让我们先通过一个例子，了解什么是"泊松分布"。

已知某家小杂货店，平均每周售出2个水果罐头。请问该店水果罐头的最佳库存量是多少？

假定不存在季节因素，可以近似认为，这个问题满足以下三个条件：

（1）顾客购买水果罐头是小概率事件。
（2）购买水果罐头的顾客是独立的，不会互相影响。
（3）顾客购买水果罐头的概率是稳定的。

在统计学上，只要某类事件满足上面三个条件，它就服从"泊松分布"。

泊松分布的公式如下：

各个参数的含义：

　　P：每周销售k个罐头的概率。
　　X：水果罐头的销售变量。
　　k：X的取值（0，1，2，3...）。
　　λ：每周水果罐头的平均销售量，是一个常数，本题为2。

根据公式，计算得到每周销量的分布：

从上表可见，如果存货4个罐头，95%的概率不会缺货（平均每19周发生一次）；如果存货5个罐头，98%的概率不会缺货（平均59周发生一次）。

再举个例子

假设到银行办业务的人是相互独立的，每个小时m个人。现在问一小时3个人的概率多大？
我们可以把一个小时分成很多区间，比如60个区间，那么每分钟就是m/60个人，如果m/60大于一个人，那我们可以把区间分得更小，不能让单位区间人数超过1人，这样我们就可以把单位区间到达1人认为成功，否则是失败，于是用下面的式子来求概率。
P(x=3)=C(60,3)*(m/60)^3*(1-m/60)^(60-3)，这个式子C(60,3)是3个人可以是60个区间的任意3个区间，后面分别是3个区间有人的概率和57个区间无人的概率。
更一般来讲
P(x=k)=C(n,k)*(λ/n)^k*(1-λ/n)^(n-k)=λ^k/k! *exp(-λ)

最大似然估计

给定n个样本值k_i，希望得到从中推测出总体的泊松分布参数λ的估计。为计算最大似然估计值, 列出对数似然函数：

对函数L取相对于λ的导数并令其等于零:

解得λ从而得到一个驻点（stationary point）:

检查函数L的二阶导数，发现对所有的λ 与k_i大于零的情况二阶导数都为负。因此求得的驻点是对数似然函数L的极大值点:

最大似然估计举个例子

对某公共汽车站的客流做调查，统计了某天上午10：30到11：47来到候车的乘客情况。假定来到候车的乘客各批（每批可以是1人也可以是多人）是互相独立发生的。观察每20秒区间来到候车的乘客批次，共观察77分钟*3=231次，共得到230个观察记录。其中来到0批、1批、2批、3批、4批及4批以上的观察记录分别是100个、81个、34个、9个、6个。使用极大似真估计（MLE），得到的估计为200/231=0.8658。