机器学习必备概率基础知识

来源：互联网发布：vmware for ubuntu 32 编辑：程序博客网时间：2024/04/29 20:56

概率分布

期望

如果∫ ∞ −∞ |x|f(x)dx<∞ ，那么E(x)=∫ ∞ −∞ xf(x)dx ；如果积分发散，则期望不存在（无意义）。

函数的期望 如果Y=g(X) ，对于离散变量E(Y)=∑ x g(x)p(x) ，对于连续变量E(Y)=∫ ∞ −∞ g(x)f(x)dx 。注意函数的期望不一定等于期望的函数，即E[g(x)]≠g[E(x)] 。如果X和Y是相互独立的随机变量，g和h是固定的函数，那么

E [g (X) h (Y)] = E [g (X)] E [h (Y)], i f g (X) 和 h (Y) 的 期 望 存 在 (1)

作为公式

(1) 的特例，

E(XY)=E(X)E(Y) 。

方差是一种特殊的期望

V a r (X) = E [X - E (X)] 2 = E (X 2) - [E (X)] 2 (2)

伯努利分布

伯努利随机变量的取值只有两个：0和1。

p (1) = p (3)

二项分布

令x 1 ,x 2 ,...,x n 是相互独立的伯努得随机变量，那么

y = x 1 + x 2 + . . . + x n (4)

是一个二项随机变量。

p (y = k) = (n k) p k (1 - p) n - k (5)

其中

p 就是公式

(3) 中的

p ，所以公式

(3) 表示一次试验成功的概率，而公式

(5) 表示k次试验成功的概率。

多项分布

二项分布每次实验结果只有2种，如果有多种那就变成了多项分布。设一共有r种结果，每种结果出现的概率依次是p 1 ,p 2 ,...p r ，进行发n次实验，第i种结果出现的次数为n i ，这样的概率是

p (n 1, n 2, \dots n r) = n ! n 1 ! n 2 ! \dots n r ! p n 1 1 p n 2 2 \dots p n r r (6)

n个对象分成r个类别，第i类有

n i 个对象，这种分类方式共有

n ! n 1 ! n 2 ! \dots n r ! (7)

种，这个式子正是多项系数

(X 1 + X 2 + \dots + X r) n = \sum (n ! n 1 ! n 2 ! \dots n r !) X n 1 1 X n 2 2 \dots X n r r (8)

几何分布

连续若干次相互独立的伯努利试验，第g次才成功。则

p (g = k) = (1 - p) k - 1 p (9)

期望是

负二项分布

负二项分布是几何分布的一般化。连续若干次相互独立的伯努利试验，直到成功了r次为止，共进行了k次试验。

p (n = k) = (k - 1 r - 1) p r - 1 (1 - p) k - r p (10)

负二项分布也可以看成是r次独立的几何随机变量的和：第1次成功时经历的试验次数

g 1 加上第1次成功后第2次成功又经历的试验次数

g 2 加上……所以

n = g 1 + g 2 + . . . + g r (11)

超几何分布

共有n个球，其中黑球r个，白球n-r个。从中取出m个球，X表示抽到黑球的个数。

p (X = k) = ( r k ) ( n - r m - k ) ( n m ) (12)

在估计野生动物数量时经常采用标记重捕法：捕获r只动物，将它们作上标记后释放。这之后再捕获m个动物，发现其中有k个带有标记，请估计动物的总数n。这里我们采用极大似然估计法，它将使观测结果出现可能性最大的n作为其估计值。根据超几何分布我们知道出现观测结果的概率为

L n = ( r k ) ( n - r m - k ) ( n m )

"显然易见”，该似然函数随着n的增长先单调上长再单调下降，为求得似然函数的极大值点很容易想到的是令一阶导数为0。然而一阶导数并不好求，我们转把似然函数转换成对数函数后再来求一阶导数，不幸的是这种方法仍然不便于计算。我们考虑似然函数的连续项比值

L n L n - 1 = ( n - m ) ( n - r ) n ( n + k - m - r )

该比值项为1时似然函数取得最大值，得

n = r m k

自然常数e

下面的几种概率密度函数中都包含e，所以我们先来剖析一下e到底是什么。

自然常数e和圆周率π 是常见的超越数。

来看几个跟e有关的公式。

e = lim x \to \infty (1 + 1 x) x (13)

e = \sum x = 0 \infty 1 x ! (14)

(a x)' = a x l n a (15)

(l o g a x)' = l o g a e x (16)

利用公式(13) 我们来具体说下e到底是什么。假设一个细胞经过1个单位时间分裂成两个细胞。即经过1个单位时间后细胞数目比原先多了1倍，经过1/2个单位时间后细胞数目比原先多了1/2倍，经过1/3个单位时间后细胞数目比原先多了1/3倍，经过1/n个单位时间后细胞数目比原先多了1/n倍。则我们用下面的公式计算单位时间后的细胞数目是当前的几倍：

(1+11 ) 1

现在假设一个细胞还是需要1个单位时间才能分裂成两个细胞，只是经过1/2单位时间后，正在分裂中的细胞又开始新的分裂过程。1个单位时间可以分成前后两个阶段，每个阶段末的细胞数目都是阶段初的1+12 倍。我们用下面的公式计算单位时间后的细胞数目是当前的几倍：

(1+12 ) 2

如果经过1/n个单位时间后细胞就具有分裂能力，则我们用下面的公式计算单位时间后的细胞数目是当前的几倍：

(1 + 1 n) n (17)

当细胞具有分裂能力的时间间隔足够短，即n→∞ 时，公式(17) 就等于e。由此得出：e是单位时间内持续的翻番增长所能达到的极限值。

泊松分布

当满足以下前提条件时，泊松变量表示单位时间内发生的次数。

不同子区间内了生与否相互独立
每个子区间发生的概率相同
事件不会同时发生

P (X = k) = λ k k ! e - λ, k = 0, 1, 2...... (18)

注意到

e λ = \sum k = 0 \infty λ k k ! (19)

泊松分布的期望和方差都是λ 。

泊松过程：S 1 ,S 2 ,...S N 是S的互不相交的子集，这些子集上发生的事件数N 1 ,N 2 ,...N 3 是相互独立的随机变量，且服从参数为λ|S 1 |,λ|S 2 |...λ|S N | 的泊松分布，即期望与区间大小成正比例。

如果X服从参数为λ 的泊松分布，Y服从参数为μ 的泊松分布，且X和Y相互独立，那么X+Y服从参数为λ+μ 的泊松分布。

Poisson(λ) 分布可以看成是二项分布B(n,p) 在np=λ,n→∞ 条件下的极限分布。

指数分布

指数分布常用来描述生命周期或等待时间，变量一般用t表示。

密度函数f(t)={λe −λt ,0, ift≥0ift<0

λ 越大，密度函数下降得越快。

密度积累函数F(t)=P(T<t)=1−e −λt ，即

P (T > t) = e - λ t (20)

一般地，泊松过程两次事件发生的时间间隔是独立同分布的指数随机变量。这里我们可以简单推导一下，令泊松过程两次事件发生的时间间隔是T，

P(T>t)=P((t 0 ,t 0 +t)内没有事件发生) ，因为在长度为

(t 0 ,t 0 +t) 的时长内事件发生的个数服从参数为

λt 的泊松分布，由公式

(18) 发生次数为0的概率是

e −λt ，即

P(T>t)=e −λt ，这和公式

(20) 是吻合的。

指数分布的期望是1λ 。

正态分布

密度函数

f (x) = 1 2 π - - \sqrt σ e - ( x - μ ) 2 2 σ 2 (21)

独立正态随机变量的和还是正态随机变量。

这里给出一种生成正态随机变量的方法。首先独立生成[0,1]上的均匀随机变量U 1 和U 2 ，则X=−2logU 1 − − − − − − − √ cos(2πU 2 )和Y=−2logU 1 − − − − − − − √ sin(2πU 2 ) 是相互独立的标准正态随机变量，这种方法叫做极化方法(polar method)。

中心极限定理

令X 1 ,X 2 ,⋯ 是均值为0方差为σ 2 的独立随机变量序列，具有相同的分布函数F，矩生成函数M在零点附近有定义，令

S n = \sum i = 1 n X i (22)

那么

lim n \to \infty P (S n σ n \sqrt \leq x) = Φ (x), - \infty < x < \infty (23)

其中

Φ(x) 是正态分布的累积密度函数。暂且不论矩生成函数是什么。

粗略来看中心极限定理是说，如果一个随机变量是许多独立同分布的随机变量之和，那么它就近似服从正态分布。所以说正态分布是分布之王。

因为二项随机变量是独立的伯努力随机变量之和，由中心极限定理得，二项分布可用正态分布来近似。当p=12 时近似得最好。常用的经验方法是np>5且n(1-p)>5时，近似比较合理。

柯西分布

如果X和Y是独立的标正态随机变量，则Z=YX 服从柯西分布。

f (z) = 1 π ( z 2 + 1 ), - \infty < z < \infty (24)

柯西密度与标准正态密度相似，也关于0点对称，似乎表明E(Z)=0，然而

∫ ∞ −∞ |z|π(1+z 2 ) dz=∞ ，期望不存在，究其原因在于柯西密度衰减得太慢，以至于z取较大值时的概率不能忽略不计。柯西密度尾部以速度

x −2 衰减，正态密度尾部以速度

e −x 2 衰减，正态密度衰减得快一些。

伽马分布

先介绍下伽马函数：Γ(x)=(x−1)!=∫ ∞ 0 μ x−1 e −μ dμ,x>0

伽马函数把阶乘运算从整数拓展到了实数。

不仅如此，利用伽马函数还可以求一般函数的分数阶导数。我们看一下x n 的各阶导数：

1阶导数--nx n−1

2阶导数--n(n−1)x n−2

k阶导数--n(n−1)⋯(n−k+1)x n−k =n!(n−k)! x n−k =Γ(n+1)Γ(n−k+1) x n−k

x n 的分数阶导数就可以用伽马函数来计算。对于一般函数f(x)可以通过Taylor展开式把它表示成幂级数的形式，借助于x n 的分数阶导数就可以求出任意函数的分数阶导数。

伽马密度函数

g (t) = λ α Γ ( α ) t α - 1 e - λ t, t \geq 0 (25)

参数

α 为形状参数，

λ 为尺度参数。变动

α 改变改变密度函数的形状，改变

λ 改变测量单位。

任何非负随机变量的密度函数都可以用伽马密度函数来模拟，就看α 和λ 怎么拟合了。

α=1 时伽马密度为指数密度，伽马密度的期望是αλ ，所以指数分布的期望是1λ 。

参数为λ 的n个独立指数随机变量的和服从参数为n和λ 的伽马分布，又因为泊松过程中两个连续随机变量发生的时间间隔服从指数分布，因此在泊松过程中，n个连续事件发生的时间间隔服从伽马分布。

贝塔分布

f (u) = Γ ( α + β ) Γ ( α ) Γ ( β ) μ α - 1 (1 - μ) β - 1, 0 \leq μ \leq 1 (26)

Beta分布的概率密度图像也是个百变星君，调整α 和β 它可以变成凸的、凹的、单调上升的、单调下降的，可以是曲线，也可以是直线。均匀分布也是一种特殊的Beta分布。

设x的密度函数为f(x)，累积密度函数为F(x)，X (1) <X (2) <X⋯<X (n) 为顺序统计量，则由概率的乘法定理很容易得出X (k) 的密度是:

f k (x) = n ! ( k - 1 ) ! ( n - k ) ! f (x) F (x) k - 1 (x) [1 - F (x)] n - k (27)

特别地，当x是[0,1]上的均匀分布时，f(x)=1,F(x)=x，则

f k (x) = n ! ( k - 1 ) ! ( n - k ) ! x k - 1 (x) [1 - x] n - k (28)

这就是一个贝塔密度。

R=X (n) −X (1) 称为极差。

卡方分布

X 1 ,X 2 ,⋯,X n 是独立的标准正态随机变量，则X 2 1 +X 2 2 +⋯+X 2 n 是自由度为n的卡方分布，记为χ 2 n 。

如果U、V独立，且U∼χ 2 n ,V∼χ 2 m ，那么U+Y∼χ 2 m+n

自由度为n的卡方分布是α=n2 和λ=12 的伽马分布，由公式(25) 可推出卡方密度

f (x) = 1 2 n / 2 Γ ( n / 2 ) x n / 2 - 1 e - x / 2, x \geq 0 (29)

t分布

如果Z∼N(0,1),U∼χ 2 n ，且Z和U独立，则ZU/n √ 是自由度为n的t分布。

f (t) = Γ ( n + 1 2 ) n π - - \sqrt Γ ( n 2 ) (1 + t 2 n) - n + 1 2 (30)

t分布关于0点对称。当自由度趋于无穷大时，t分布趋于标准正态分布。事实上，自由度超过20或30时，两个分布就非常接近。

F分布

如果U和V是自由度分别为m和n的独立卡方随机变量，

W = U / m V / n (31)

为自由度为m和n的F分布，记作

F m,n

由t分布的定义易证：t 2 n ∼F 1,n

0 0