[PRML] Bayesian Learning 贝叶斯学习方法

来源：互联网发布：国企下岗知乎编辑：程序博客网时间：2024/06/17 00:45

问题引入

在上一篇博客[PRML] Point Estimation 点估计的最后，难搞的富翁提了一个无厘头的问题，他固执地认为，图钉头朝上和屁股朝上的概率和抛硬币一样是五五开。尽管我们很好地用理论阐述了为什么图钉头朝上的概率是3/5，但富翁还是要我们解释一下为什么。没办法，谁让人家给钱呢:(

θ的概率分布

在点估计中，我们假设图钉头朝上的概率是一个单值，现在，更一般地，我们假设θ满足一定的概率分布，如图1。

图1

θ的概率分布
在贝叶斯学习方法中，我们把实验之前的知识（富翁认为的五五开概率），称为先验Prior。图1关于

θ的概率分布即可用来表示富翁的先验知识，

θ取值为0.5的概率最大。

贝叶斯学习方法

贝叶斯方法实际上是在先验知识的基础上，根据实验结果，获得后验知识Posterior，即修正先验知识，使得它满足我们观测的结果，如图2。

图2 贝叶斯学习方法
现在给出通过数据修正先验获得后验的方法，即贝叶斯方程。

P(θ)为先验的

θ出现的概率，

P(D|θ)为概率

θ下D出现的概率，

P(D)为D出现的概率，

P(θ|D)为D出现的情况下

θ的后验概率。
注意到

P(D)=∫θP(θ)P(D|θ)dθ实际上是一个用来归一化的常数。因此贝叶斯方程可以等价地表示为

P(θ|D)∝P(θ)P(D|θ)

关于贝叶斯方程，请阅读概率论相关书籍。
P(θ,D)=P(D)P(θ|D)=P(θ)P(D|θ)，θ和D同时发生的概率等于在D发生后θ也发生，也等于θ发生后D也发生。
需要注意的是，θ表示的是图钉头向上的概率，但它本身是一个变量，满足某一个概率分布。（概率发生的概率:(是哦，有点迷:(）

给富翁的解释

在富翁问题中，我们能够得到似然函数likelihood function：P(D|θ)=θαH(1−θ)αT。P(D)是个常数，可以暂时不管。
那么我们的先验prior具体是什么呢？一般我们希望先验满足两个条件：

很好地表达了专家知识，或者说已经掌握的知识
求得的后验具有良好的形式

这里我们引入共轭先验Conjugate priors的概念，共轭先验具有很好的性质，关于后验封闭。所谓的关于后验封闭，即通过共轭先验获得的后验，在形式上与先验是相同的。
我们看到在富翁问题中，我们的似然函数是二项分布，对于二项分布，它的共轭先验是Beta分布。因此，我们选择先验：

P(θ)∼Beta(θ|βH,βT)=θβH−1(1−θ)βT−1B(βH,βT)=Γ(βH+βT)Γ(βH)Γ(βT)θβH−1(1−θ)βT−1

暂时不深究Beta分布的相关性质，βH和βT是Beta分布的两个参数
这里给出Beta分布的一个概率密度函数，直观上能有个认识

B函数是一个标准化函数，它只是为了使得Beta分布的概率密度积分等于1。
B(α,β)=Γ(α)Γ(β)Γ(α+β)

现在有了先验和似然函数，我们可以得到后验。

P(θ|D)∝P(θ)P(D|θ)∝θβH−1(1−θ)βT−1θαH(1−θ)αT∼Beta(αH+βH,αT+βT)

当然，这里我们得到的是一个关于θ的分布。但一般人，比如说富翁，可能更需要像上一篇博客中一样，给出一个单值来表示尖朝上的概率。
最简单的，我们可以使用θ的期望：

E [θ] = \int 10 B e t a (θ | α H + β H, α T + β T) θ d θ = α H + β H α H + β H + α T + β T

Beta分布的期望：E[Beta(α,β)]=αα+β

我们可以看到，一开始αH=αT=0，θ的期望值为先验的期望值βHβH+βT，随着实验次数的增多，最后趋向于αHαH+αT。也就是说，一开始，我们可以根据先验知识（比如以前我们抛过硬币）认为抛图钉也是五五开，然后随着一次一次的实验，我们会发现事实与我们的认为不太一样，不断地修正我们的先验知识，最终得到αHαH+αT。

最大后验近似(Maximum a posteriori approximation, MAP)

很多时候，我们需要的可能不仅仅是关于θ的统计量，比如θ的期望、方差。很多时候，我们可能需要与θ相关的一个随机函数的统计量：

E [f (θ)] \sim \int 10 f (θ) P (θ | D) d θ

当然，我们是可以通过积分求解，因为我们知道

P(θ|D)∼Beta(αH+βH,αT+βT)。但是积分毕竟还是太麻烦了，因此我们选择求一个近似，所以就用到了MAP。

θ^= arg max θ P (θ | D) = α H + β H - 1 α H + β H + α T + β T - 2 E [f (θ)] \approx f (θ^)

在这里我们也同样可以看到，当

N=αH+αT→∞时，先验会被“遗忘”，但是，当测试样本较小的时候，先验的影响很大（先入为主的想法很多时候是不对滴=_=）。

后续

富翁：恩，图钉的这个问题我了解了。那现在我给你一个骰子，你能……
-：哦哦，我知道你想问什么……

关于贝叶斯学习方法，其实只有一个小小的后续了。不过之后的故事还没有理清楚，所以打算拿这个小后续先缓一缓。要是理不清楚，就辞职不干吧hhh

0 0