MLaPP Chapter 2 Probability 概率论

来源：互联网发布：java要学多久能学会编辑：程序博客网时间：2024/05/01 18:33

2.1 Introduction 简介

对概率一般有两种理解(interpretations)：

frequentist interpretation,
- 这个层面上是说，概率可以看作是多次事件实验的发生的频率的逼近
- 举个例子，假如进行很多次抛硬币实验，会发现最终硬币会出现正面的概率为0.5
Bayesian interpretation,
- 贝叶斯派常把概率当做是量化事件不确定型的工具
  - 原文 (probability is used to quantify our uncertainty about something)
- 贝叶斯派理解概率的好处是，可以拿来估算那些无法进行多次重复实验的事件
  - 如2020年之前北极冰川融化的概率

2.2 A brief review of probability theory 概率论复习

2.2.1 Discrete random variables 离散随机变量

p(X=x) 表示离散随机变量 X 在有限或者可数无限集合中取 X=x 值时的概率，p() 称作是 probability mass function or pmf

2.2.2 Fundamental rules 基本规则

2.2.2.1 Probability of a union of two events　事件的并集

p (A \lor B) = P (A) + p (B) - P (A \land B)

其中，

p(A∧B)=0 时表示互斥

2.2.2.2 Joint probabilities 联合概率

Joint probabilities 联合概率
- p(A,B)=p(A∧B)=p(A|B)P(B)=P(B|A)P(A)
- 联合概率可以通过条件概率得到，有时候称为 product rule
margin distribution 边缘分布公式：
- p(A)=∑bp(A,B)=∑bp(A|B)p(B=b)
- 边缘分布可以有联合概率分布沿着特定的随机变量求和得到，有时候称为 sum rule or the rule of total probability

2.2.2.3 Conditional probability 条件概率

p (A | B) = p ( A , B ) p ( B ), i f p (B) > 0

2.2.3 Bayes rule 贝叶斯规则

p (X = x | Y = y) = p ( X = x , Y = y ) p ( Y = y ) = p ( X = x ) p ( Y = y | X = x ) \sum x ' p ( X = x ' ) p ( Y = y | X = x ' )

2.2.3.1 Example: medical diagnosis

癌症检测的敏感度是80％，即如果你有癌症，那么检测阳性的概率为80%，x=1 表示检测阳性，y=1 表示有癌症，上述的敏感度表示为：p(x=1|y=1)=0.8，事实上，癌症在人群中的发病率为 0.004，即 p(y=1)=0.004，这个是前验概率，prior probability。忽略先验信息而想当然的认为检测阳性后就有80%的可能会患癌症，叫做基数谬误，base rate fallacy，而false positive or false alarm，即诊断错误的概率，没有癌症但是检测为阳性，概率为 p(x=1|y=0)=0.1 。

利用上面的信息和贝叶斯规则，就可推断出正确的答案了，即检测为阳性的情况下，实际也是的癌症的概率为

p (y = 1 | x = 1) = p (x = 1 | y = 1) p (y = 1) / p (x = 1) = 0.8 * 0.004 / 0.1028 = 0.031

其中分母，

p (x = 1) = p (x = 1 | y = 1) p (y = 1) + p (x = 1 | y = 0) p (y = 0) = 0.8 * 0.004 + 0.1 * 0.996 = 0.1028

2.2.3.2 Example: Generative classifiers

生成分类器（generative classifier）
- 因为我们用到了class-conditional density p(x|y=c) 和先验 prior p(y=c)
判别分类器（discriminative classifier），直接判别

2.2.4 Independence and conditional independence 独立和条件独立

X, Y 是无条件独立 unconditional independent 或者 marginally independent ，用 X⊥Y表示，如下：

X ⊥ Y ⟺ p (X, Y) = p (X) p (Y)

如果联合概率可以写成边缘概率的乘积，那么这两个随机变量是互斥的（mutually exclusive）

现实中无条件独立很少见，条件独立更常见　

X ⊥ Y | Z ⟺ p (X, Y | Z) = p (X | Z) p (Y | Z)

原文如下：X and Y are conditionally independent given Z iff the conditional joint can be written as a product of conditional marginals
此外，图模型中也有解释，见chapter 10

Theorem 2.2.1

X⊥Y|Z 当且仅当存在函数 g,h 使得 p(x,y|z)=g(x,z)h(y,z)

Conditional Independent 能让我们一点点建立大概率模型，朴素贝叶斯，马尔科夫模型，图模型中均有应用。

2.2.5 Continuous random variables 连续随机变量

连续随机变量X取值在区间 [a,b] 内，a≤X≤b，定义事件 A=(X≤a) 和事件 B=(X≤b)，事件 W=(a<X≤b)，那么事件 B，A，W 的关系是 B=A∨W，即事件 B 包含 A 和 W
可得 p(B)=p(A)+p(W) 即 p(W)=p(B)−p(A)

由此定义函数 F(q)≜p(X≤q) 称为积累分布函数（cumulative distribution function, cdf），显然是单调递增函数（monotonically increasing function）

p (a < X \leq b) = F (b) - F (a)

定义

F(x) 的导数为

f(x)=dF(x)dx ，称为概率密度函数 probability density function, pdf
反之可以求积分，

F (a < X \leq b) = \int b a f (x) d x

p(x) 可以大于零，只要求的积分为

1 就可以了。比如区间长度小于１的均匀分布（uniform distribution）

U n i f (x | a, b) = 1 b - a I (a \leq x \leq b)

2.2.6 Quantiles 分位数

对任意的 p 有 0<p<1，称 P(X)=p 的 X 为此分布的分数位（quantile），比如某分布有 F(3)=0.5 表示 P(X≤3)=0.5，则 3 就是这个分布的中值（median）分位数。换句话说，分位数就是取到某概率时的 x 坐标值。分布函数的反函数（或者叫逆函数，inverse function），F−1 可以很方便地表示分数位。

思考，为什么区间 [μ−1.96σ,μ+1.96σ] 占据了高斯分布中 95% 的数据？

2.2.7 Mean and variance 均值和方差

平均数（Mean）定义如下：

离散随机变量：E(x)≜∑x∈Xx p(x)

连续随机变量：E(x)≜∫x∈Xx p(x) dx

方差定义如下：

var [X] ≜ E [(X - μ) 2] = E [X 2] - μ 2

2.3 Some common discrete distributions 常见的离散分布

2.3.1 The binomial and Bernoulli distributions 二项分布和伯努利分布

考虑扔硬币问题，假如扔 n 次硬币，那么正面朝上的次数定义为随机变量 X，显然有 X∈{0,...,n} ，若正面朝上的概率为 θ 的话，那么可以说 X 符合二项分布，写作 X∈Bin(n,θ)，pmf（概率质量函数）为：

B i n (k | n, θ) ≜ C k n θ k (1 - θ) n - k

上面的组合数称为二项系数（binomial coefficient），二项分布的期望为 nθ，方差为 nθ(1−θ)

假如只扔一次硬币，那么 X∈{0,1}，那么随机变量 X 是符合伯努利分布的，写作 X∈Ber(x|θ)，pmf（概率质量函数）为：

B e r (x | θ) = θ I (x = 1) (1 - θ) I (x = 0)

或者写做

B e r (x | θ) = {θ 1 - θ i f x = 1 i f x = 0

所以，伯努利分布只是二项分布的一种特殊情况。

2.3.2 The multinomial and numtinoulli distributions 多项式分布和多努利分布

多项式分布可以对一个 K 面的筛子（K-side die）建模，定义随机向量 x=(x1,...,xK)，其中 xj 表示投掷 n 次筛子时第 j 面出现的次数。要计算随机向量出现的概率，这应该是一个有放回的组合问题，概率质量函数如下：

M u (x | n, θ) ≜ (n x 1 , . . . , x K) \prod j = 1 K θ x j j

系数中的组合数称作是多项式系数，定义为：

(n x 1 , . . . , x K) ≜ n ! x x ! x 2 ! \dots x K !

令 n=1，意味着只投掷一次筛子，此时随机向量 x 就是一堆的 0 和一个 1 而已，称作是 one-hot encoding，可写作 x=[I(x=1),...,I(x=K)]，概率质量函数 pmf 为：

M u (x | 1, θ) = \prod j = 1 K θ I (x j = 1) j

这个分布有三种叫法：
1. categorical distributionor
2. discrete distribution
3. multinoulli distribution

当然也有专门的符号表示：

C a t (x | θ) ≜ M u (x | 1, θ)

2.3.2.1 Application: DNA sequence motifs

这个例子没太看懂要做啥，不太重要吧？

2.3.3 The Poisson distribution 泊松分布

给定离散随机变量 X∈{0,1,2,...}，定义泊松分布的 pmf 为：

P o i (x | λ) = e - λ λ x x !

第一项是归一化系数，为了保证整个分布的和为 1，其中参数 λ>0

2.3.4 The empirical distribution 经验分布

经验分布又叫经验测量（empirical measure），给定一组数据 D={x1,...,xN}，我们想统计一下里面有多少数据是在集合 A 中的，按照下面的公式计算：

p e m p (A) ≜ 1 N \sum i = 1 N δ x i (A)

其中

δx(A) 叫做狄拉克测度（Dirac measure），定义为

δ x (A) = {01 i f x \notin A i f x \in A

广义上可以将每个样本关联一个权重，那么有：

p (x) = \sum i = 1 N w i δ x i (x)

其中要求

0≤wi≤1 and

∑Ni=1wi=1

然而翻了一下网上对经验分布的解释，一般表述为，把样本集中的所有样本按照从小到大的顺序排序，计算其积累分布，就得到了经验分布。

P ˆ (X = x) = 1 n \sum i = 1 n I (x i \leq x)

2.4 Some commom continuous distributions

下面提到的连续分布都是一维的概率分布（univariate(one-dimensional) continuous probability distributions）

2.4.1 Gaussian (normal) distribution 高斯分布

统计学和机器学习中最常用的应该就是高斯分布了，其概率密度函数（pdf）公式如下：

N (x | μ, σ 2) ≜ 1 2 π σ 2 - - - - \sqrt e - 1 2 σ 2 (x - μ) 2

其中，参数 μ=E[X] 表示平均数，σ2=var[X] 表示方差，2πσ2−−−−√ 表示归一化的常数，保证密度的积分为 1。可以用 X∼N(μ,σ2) 来表示 p(X=x)∼N(μ,σ2) 。一般用 X∼N(0,1) 表示 X 服从标准高斯分布（standard normal distribution）

定义 λ=1σ2 为高斯的精密度，和方差意思相对。高的精密度意味着小方差，数据会集中在均值附近。

高斯分布的积累分布函数（cdf）为概率密度函数（pdf）的积分：

Φ (x; μ, σ 2) ≜ \int x - \infty N (z | μ, σ 2) d z

可以用误差函数 error function (erf) 来计算，

Φ (x; μ, σ) = 1 2 [1 + e r f (z 2 \sqrt)]

其中 z=(x−μ)σ，erf(x)≜2π√∫x0e−t2

高斯分布之所以在统计学中应用如此之广泛，除了其两个参数很有解释（interpret）之外，而且很适合拿来给残差（residual error）或者说噪音（error）建模等诸多原因。

2.4.2 Degenerate pdf 退化的概率密度函数

限制 σ2→0，高斯分布的函数图像变成了一个无限高，无限瘦，以 μ 为中心的脉冲：

lim σ 2 \to 0 N (x | μ, σ 2) = δ (x - μ)

这里的

δ 称作是 Dirac delta function，定义为：

δ (x) = {\infty 0 i f x = 0 i f x \neq 0

同时保持在实数域上的积分为

δ 函数可以拿来做筛选，信号与系统中常用到，如：∫∞−∞f(x)δ(x−μ)dx=f(μ)

然而高斯分布一般会对异常值（outliers，离群值）很敏感，因为 log-probability 只是二次衰减。一个更鲁棒的分布是 Student t distribution，pdf 定义如下：

T (x | μ, σ 2, ν) \propto [1 + 1 ν (x - μ σ) 2] - (ν + 1 2)

其中

μ 是均值，要满足

ν>1 才有意义。

σ2>0 为放缩参数（scale parameter），

ν>0 为自由度（degrees of freedom），t 分布的方差是 var =

νσ2ν−2，但是方差要在

ν>2 的条件下才有意义。

图 Figure 2.8 展示了异常值（outliers）对高斯分布影响很大，但是对 T 分布和拉普拉斯分布影响较小。

若取 ν=1，那么此时称为是 柯西或者洛伦兹分布（Cauchy or Lorentz distribution），一般取 ν=4，T 分布会取得很好的效果，当 ν≫5 时，学生分布会快速接近高斯分布，失去其鲁棒性的性质。

2.4.3 The Laplace distribution 拉普拉斯分布

拉普拉斯分布有很重的尾巴（with heavy tails），又称作是 双边指数分布（double sided exponential distribution），pdf 如下：

L a p (x | μ, b) ≜ 1 2 b e x p (- | x - μ | b)

均值为

μ，方差为

2b2，拉普拉斯分布的概率密度在均值处更集中，瑰丽模型的稀疏性。

2.4.4 The gamma distribution 伽马分布

伽马分布的变量为正实数，有两个参数来定义，a>0 决定形状（shape），b>0 决定比率（rate），

G a (T | s h a p e = a, r a t e = b) ≜ b a Γ ( a ) T a - 1 e - T b

其中

Γ(a) 是伽马函数，

Γ (x) ≜ \int \infty 0 u x - 1 e - u d u

伽马分布下列的性质，均值

a/b，方差

a/b2

伽马分布的一些特殊情况：
1. Exponential distribution Expon(x|λ)≜Ga(x|1,λ)
2. Erlang distribution 和伽马分布相同，只是 a 要求为整数，一般固定为 2
3. Chi-squared distribution X2(x|ν)≜Ga(x|ν2,12)

若 X∼Ga(a,b)，那么有 1X∼IG(a,b)，其中 IG 为逆伽马分布（Inverse Gamma）其性质略。

2.4.5 The Beta distribution 贝塔分布

定义如下：

Beta (x | a, b) = 1 B ( a , b ) x a - 1 (1 - x) b - 1

其中

B(a,b) 为贝塔函数

B(a,b)≜Γ(a)Γ(b)Γ(a+b)，

a,b>0 时分布是可积分的，

a=b=1 时为均匀分布，若

a,b<1 时，可以得到双峰分布；若

a,b>1 时，可以得到单峰分布。贝塔分布的性质如下：

mean = a a + b, mode = a - 1 a + b - 2, var = a b ( a + b ) 2 ( a + b + 1 )

2.4.6 Pareto distribution 柏拉图分布

柏拉图分布侧重对数据长长的“尾巴”建模，pdf 如下：

P a r e t o (x | k, m) = k m k x - (k + 1) I (x \geq m)

2.5 Joint probability distributions 联合概率分布

前面讲的都是一元概率分布（univariate probability distributions），下面拓展到联合概率分布上（Joint probability distributions）。

向量 p=(x1,...,xD) 有 D>0 个向量，联合概率分布可以对这些变量之间的相互关系进行建模。如果所有的变量都是离散的，那么可以用多维矩阵来表示此联合分布，每个维度对应一个随机变量。
实际中，我们可以做随机变量之间的条件独立性来减少参数的个数。
对于连续分布，可以显示概率密度函数为确定的泛函的形式。

2.5.1 Covariance and correlation 协方差和相关性

两个随机变量 X 和 Y 的协方差（covariance）可以衡量 X 和 Y 的相关程度。定义如下：

c o v [X, Y] ≜ E [(X - E [X]) (Y - E (Y))] = E [X Y] - E [X] E [Y]

引申到 d 维的随机向量 x，可以定义协方差矩阵（covariance matrix）为下列的对称的，正定的矩阵（symmetric, positive definite matrix）：

c o v [x] ≜ E [(x - E (x)) (x - E (x)) T] = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ v a r [X 1] c o v [X 2, X 1] ⋮ c o v [X d, X 1] c o v [X 1, X 2] v a r [X 2] ⋮ c o v [X d, X 2] \dots \dots ⋮ \dots c o v [X 1, X d] c o v [X 2, X d] v a r [X d] ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

随机变量的协方差矩阵 Σ 是对称矩阵和半正定矩阵
作为实对称矩阵，其主要性质之一就是可以正交对角化，即存在正交矩阵U，使得 UTΣU=Λ
作为半正定矩阵，我们可以对协方差矩阵进行Cholesky分解：半正定矩阵 Σ，可以分解为Σ=UTΛU，其中U是上三角阵，Λ是对角线元素都非负的对角矩阵。所以 Σ=UTΛU=[UTΛ1/2][Λ1/2U]=[Λ1/2U]T[Λ1/2U]
这样一来，矩阵Σ=CTC ，其中C=Λ1/2U。

因为协方差的取值在 0 到正无穷之间，所以有时候需要做归一化处理，于是引申出了相关系数（Pearson correlation coefficient）的概念，公式如下：

corr [X, Y] ≜ cov [ X , Y ] var [ X ] var [ Y ] - - - - - - - - - - \sqrt

相应的，相关性矩阵可写作下列的形式：

R = ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ c o r r [X 1, X 1] ⋮ c o r r [X d, X 1] c o r r [X 1, X 2] ⋮ c o r r [X d, X 2] \dots ⋮ \dots c o r r [X 1, X d] c o r r [X d, X d] ⎞ ⎠ ⎟ ⎟ ⎟ ⎟

R 的取值在 [−1,1] 之间，矩阵中的对角项都是同一个随机变量，因此相关系数为 1，而事实上，相关系数为 1 的充要条件是两个随机变量线性相关。如可以用相应的两个实数 a,b 联系起来：Y=aX+b

若随机变量 X,Y 相互独立（independent），意味着有 p(X,Y)=P(X)p(Y) 那么有 cov(X,Y)=0，因此相关系数为 0 可以表示两者不相关。然而反过来，不相关并不意味着两者一定要独立。（uncorrelated does not imply independent）

所以相关系数这鬼东西就没啥用喽！

2.5.2 The multivariate Gaussian 多元高斯

多元高斯（Multivariate Gaussian, Multivariate Normal, MVN）是对连续变量最常用的联合概率密度函数。D 维的 MVN 的概率密度函数定义如下：

N (x | μ, Σ) ≜ 1 ( 2 π ) D / 2 | Σ | 1 / 2 e x p [- 1 2 (x - μ) T Σ - 1 (x - μ)]

其中

μ=E[x]∈RD 为均值向量，

Σ=cov[x] 为

D×D 维的协方差矩阵。或者叫 precision matrix or concentration matrix. 又有符号

Λ=Σ−1.

2.5.3 Multivariate Student t distribution 多元 t 分布

公式太长了且不常用，略。

2.5.4 Dirichlet distribution 狄利克雷分布

贝塔分布（Beta distribution）的多元推广版本，称为狄利克雷分布，且分布符合概率单纯型的定义。（即该分布中的任意两点的运算，仍然落在该概率分布中，因此是凸集，且限定凸集的形状为单纯型）。

概率密度函数 pdf 为：

D i r (x | α) ≜ 1 B ( α ) \prod k = 1 K x α k - 1 k I (x \in S K)

集合

SK 定义为：

S K = {x : 0 \leq x k \leq 1, \sum k = 1 K x k = 1}

而

B(α1,...,αK) 是贝塔函数的

K 变量问题的自然推广，

B (α) ≜ \prod K k = 1 Γ ( α k ) Γ ( α 0 )

其中，变量

α0≜∑Kk=1αk 控制了强度的分布（controls the strength of the distribution or how peaked it is），通俗点说，就是哪里会冒尖，哪里会平坦。

狄利克雷分布的一些性质如下：

E [x k] = α k α 0, m o d e [x k] = α k - 1 α 0 - K, v a r [x k] = α k ( α 0 - α k ) α 2 0 ( α 0 - 1 )

其中，

α0=∑kαk，通常增大

α 会降低方差。

2.6 Tranformations of random variables 随机变量的变换

即已知随机变量 x 满足 x∼p()，求 y=f(x) 的分布。

2.6.1 Linear transformations 线性变换

假设 f(x) 为线性函数，y=f(x)，那么 y 的均值为

E [y] = E [A x + b] = A μ + b

方差为：

c o v [y] = c o v [A x + b] = A Σ A T

2.6.2 General transformations 一般的变换

若 X 是离散的随机变量，概率密度函数可以通过把所有的 y 加起来得到，即

p y (y) = \sum x : f (x) = y p x (x)

其中，

px(x) 是

x 的概率质量函数。

若 X 是连续的随机变量，考虑对应 Y 的积累分布函数（cdf），

P y (y) ≜ P (Y \leq y) = P (f (X) \leq y) = P (X \in {x | f (x) \leq y})

所以可以通过对此函数求导数得到概率密度函数（derive the pdf of y by differentiating the cdf），要求解上述公式，还要进一步限定

y=f(x) 是单调的（monotonic），因此也是可逆的。故可以进一步得到：

P y (y) = P (f (X) \leq y) = P (X \leq f - 1 (y)) = P x (f - 1 (y))

求概率密度函数，可以通过求导数得到，带入上式的结果可得：

p y (y) ≜ d d y P y (y) = d d y P x (f - 1 (y)) = d x d y d d x P x (x) = d x d y p x (x)

2.6.2.1 Multivariate change of variables *

上述问题的多元推广，这里先引入雅各比矩阵（Jacobian matrix）的概念，定义函数 f:Rn→Rn，令 y=f(x)，那么雅各比矩阵为：

J x \to y ≜ \partial ( y 1 , . . . , y n ) \partial ( x 1 , . . . , x n ) ≜ ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ ⎜ \partial y 1 \partial x 1 ⋮ \partial y n \partial x 1 \dots ⋱ \dots \partial y 1 \partial x n ⋮ \partial y n \partial x n ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟ ⎟

上小节的结论推广如下：

p y (y) = p x (x) | d e t (\partial x \partial y) | = p x (x) | d e t J y \to x |

其中

det Jy→x 表示单位

n 维封闭空间在应用函数

f 后面积的改变大小。

2.6.3 Central limit theorem 中心极限定理

首先，中心极限定理很神奇。其次，上面讲的随机变量的变换，其实是为了这个定理做的铺垫。（Really? I doublt that.）问题描述如下，假设有一组的独立同分布（independent and identically distributed, iid）的样本数据，其均值和方差分别是 μ 和 σ2，那么可以定义求和函数 SN=∑Ni=1Xi，其实是原随机变量的变换，但是这个得到的新随机变量，是逐渐逼近高斯分布的。注意这里的 X 的分布是没有限制的，可以是任意分布，只要所有数据符合独立同分布即可。概率密度函数如下：

p (S N = s) = 1 2 π N σ 2 - - - - - - \sqrt e x p (- ( s - N μ ) 2 2 N σ 2)

也可以在此基础上做归一化，有

Z N ≜ S N - N μ σ N - - \sqrt = X ¯ ¯ ¯ - μ σ / N - - \sqrt \sim N (0, 1)

即

ZN 是符合标准的高斯分布的。通俗点说就是，符合任意分布的数据，多次采样的和构成的分布是符合高斯分布的。

这些就是中心极限定理的内容。中心极限定理在概率统计里非常重要，是概率论中的非正式首席定理，也是后续很多理论的基石。可以参考《正态分布的前世今生》这篇科普短文。

2.7 Monte Carlo approximation 蒙特卡洛近似

一般来说，用 the change of variables formula 来计算某随机变量函数的分布是很困难的，因此要采取求近似解的方法，如蒙特卡罗模拟。首先，我们从要求的分布中采样（比如用马尔可夫链蒙特卡洛方法，Markov chain Monte Carlo or MCMC），这 S 个样本为 x1,...,xS，而 f(X) 的分布就可以用经验分布 {f(xs)}Ss=1 来估计（approximation）。要求均值的话，也可以近似出来，

E [f (X)] = \int f (x) p (x) d x \approx 1 S \sum s = 1 S f (x s)

其中

xs∼p(X)，而上面的方法就称为蒙特卡洛积分法（Monte Carlo integration）

下面的结论也成立：

x¯=1S∑Ss=1xs→E[X]
1S∑Ss=1(xs−x¯)2→E[X]
1S#{xs≤c}=→P(X≤c)
median{x1,...,xS}=median(X)

2.7.1 Example: change of variables, the MC way

已知均匀分布：x∼Unif(−1,1) 和 y=f(x)=x2，那么求 y 的分布。

2.7.2 Example: estimating π by Monte Carlo integration

用蒙特卡洛积分来估计 π 的值，直接计算下列的定积分，

I = \int r - r \int r - r I (x 2 + y 2 \leq r 2) d x d y

故可得

π=I/r2，后统计随机点

(xs,ys) 的出现的概率为

p(xs,ys)，可以近似的算出

π 的值。

2.7.3 Accuracy of Monte Carlo approximation

蒙特卡洛近似的准确率取决于样本的大小，因为误差是随着样本容量的增大而逐渐逼近高斯分布的。即

(μ ˆ - μ) \to N (0, σ 2 S)

其中，

μˆ,S 是样本中的均值和样本大小，

μ,σ2 是实际的均值和方差。

当然，实际的方差 σ2 也是不知道的，也要通过蒙特卡洛的方法来估计，

σ ˆ 2 = 1 S \sum s = 1 S (f (x s) - μ ˆ) 2

要深刻理解蒙特卡洛的方法不简单，因为其方法要求的数学知识太多，可以参考《LDA数学八卦》这篇都科普短文，当然我们后面章节还会再次提到。

2.8 Information theory 信息理论

信息理论做的事，基本就是用紧凑的方式表示数据，或者叫数据压缩（data compression）或者信源编码（source coding），使得数据在传输的时候能保持很好的容错性。

2.8.1 Entropy 熵

随机变量 X 的熵可以用来表示其不确定性，定义如下：

H (X) ≜ - \sum k = 1 K p k log 2 p k

当然，这个是离散的随机变量的熵的定义，

K 表示总的状态数。一般基底取值为

2，所以熵的单位是 bits；若是去自然底数

e，那么但是可以称作是 nats.

从熵的定义中很容易得到推论，令熵最大（为 log2K）的分布是均匀分布的，此时不确定性最大；相反，可以令熵最小（为零）的分布是一个脉冲，delta function，此时不确定性为0，即完全100%地确定。

我们可以通过伯努利分布的例子来探究一下熵的直观意义。已知 p(X=1)=θ，那么熵为：

H (X) = - [p (X = 1) log 2 p (X = 1) + p (X = 0) log 2 p (X = 0)] = - [θ log 2 θ + (1 - θ) log 2 (1 - θ)]

从插图 Figure 2.21 中可以看到熵最大最小的情况。

有时候，我们会把方差和熵拿来做一个比较，因为这两个量都可以衡量数据的分布情况，且看起来负相关。然而方差侧重的是数据的离散程度，和随机变量的取值有关；而熵则只关注数据的分布，和数据本身的取值无关，这点也表现在熵的定义上面。

2.8.1-2 cross-entropy 交叉熵

离散的信息熵有时候可以解释为编码数据集需要的比特数的期望值，如对于数据集 D={A,B,C,D} 的一个分布 p={12,12,0,0}，熵 H(p)=−∑4j=1pilogpi=1，即只需要一个比特就可以编码这个分布。

假如我们的得到了一个错误的分布 q={14,14,14,14}，我们可以用 q 来编码分布 p，可以这样来计算熵，H(p,q)=−∑4j=1pilogqi=2，即用错误的分布来编码原来的分布，需要两个比特位才能满足，即四个字母都要编码进去。

上面这种计算两个分布的熵的形式，就是交叉熵的概念，

H (p, q) ≜ - \sum k p k log q k

注意这里

p 是原分布，

q 是错误的分布，顺序不可以调换。

2.8.2 KL divergence 离散度

KL散度，Kullback-Leibler divergence，或者叫相对熵（relative entropy），定义如下：

K L (p | | q) ≜ \sum k = 1 K p k log p k q k

也可以展开写，

K L (p | | q) = \sum k p k log 1 q k - \sum k p k log 1 p k = H (p, q) - H (p)

可以发现离散度就是交叉熵减去原来的熵，且总是非负的。

Theorem 2.8.1. (Information inequality) KL(p||q)≥0 with equality iff p=q

信息不等式表示，当且仅当两个分布是相同的，相对熵才为零。不等式的正确性可以用琴生不等式证明。

2.8.3 Mutual information 互信息

考虑两个离散的随机变量 X,Y，定义如下：

I (X; Y) ≜ K L (p (X, Y) | | p (X) p (Y)) = \sum x \sum y p (x, y) log p ( x , y ) p ( x ) p ( y )

恒有 I(X,Y)≥0 成立，当且仅当满足 p(X,Y)=p(X)p(Y) 时等号成立。即只有变量独立时，互信息才为零。

把互信息写成联合熵和条件熵的形式：

I (X; Y) = H (X) - H (X | Y) = H (Y) - H (Y | X)

其中

H(Y|X) 为条件熵（conditional entropy），

H(Y|X)=∑xp(x)H(Y|X=x)

另外有衡量点对点之间的互信息（pointwise mutual information, PMI），定义为在两个事件中，

P M I (x, y) ≜ log p ( x , y ) p ( x ) p ( y ) = log p ( x | y ) p ( x ) = log p ( y | x ) p ( y )

2.8.3.1 Mutual information for continuous random variables

略～

0 0