[PRML] Bayesian Learning 贝叶斯学习方法

来源:互联网 发布:国企下岗知乎 编辑:程序博客网 时间:2024/06/17 00:45

问题引入

  在上一篇博客[PRML] Point Estimation 点估计 的最后,难搞的富翁提了一个无厘头的问题,他固执地认为,图钉头朝上和屁股朝上的概率和抛硬币一样是五五开。尽管我们很好地用理论阐述了为什么图钉头朝上的概率是3/5,但富翁还是要我们解释一下为什么。没办法,谁让人家给钱呢:(

θ的概率分布

  在点估计中,我们假设图钉头朝上的概率是一个单值,现在,更一般地,我们假设θ满足一定的概率分布,如图1。

图1 theta的概率分布
图1 θ的概率分布

  在贝叶斯学习方法中,我们把实验之前的知识(富翁认为的五五开概率),称为先验Prior。图1关于θ的概率分布即可用来表示富翁的先验知识,θ取值为0.5的概率最大。

贝叶斯学习方法

  贝叶斯方法实际上是在先验知识的基础上,根据实验结果,获得后验知识Posterior,即修正先验知识,使得它满足我们观测的结果,如图2。

贝叶斯学习方法
图2 贝叶斯学习方法

  现在给出通过数据修正先验获得后验的方法,即贝叶斯方程。
贝叶斯方程

  P(θ)为先验的θ出现的概率,P(D|θ)为概率θ下D出现的概率,P(D)为D出现的概率,P(θ|D)为D出现的情况下θ的后验概率。
  注意到P(D)=θP(θ)P(D|θ)dθ实际上是一个用来归一化的常数。因此贝叶斯方程可以等价地表示为
P(θ|D)P(θ)P(D|θ)

关于贝叶斯方程,请阅读概率论相关书籍。
P(θ,D)=P(D)P(θ|D)=P(θ)P(D|θ)θD同时发生的概率等于在D发生后θ也发生,也等于θ发生后D也发生。
需要注意的是,θ表示的是图钉头向上的概率,但它本身是一个变量,满足某一个概率分布。(概率发生的概率:(是哦,有点迷:()

给富翁的解释

  在富翁问题中,我们能够得到似然函数likelihood function:P(D|θ)=θαH(1θ)αTP(D)是个常数,可以暂时不管。
  那么我们的先验prior具体是什么呢?一般我们希望先验满足两个条件:

  • 很好地表达了专家知识,或者说已经掌握的知识
  • 求得的后验具有良好的形式

  这里我们引入共轭先验Conjugate priors的概念,共轭先验具有很好的性质,关于后验封闭。所谓的关于后验封闭,即通过共轭先验获得的后验,在形式上与先验是相同的。
  我们看到在富翁问题中,我们的似然函数是二项分布,对于二项分布,它的共轭先验是Beta分布。因此,我们选择先验:

P(θ)Beta(θ|βH,βT)=θβH1(1θ)βT1B(βH,βT)=Γ(βH+βT)Γ(βH)Γ(βT)θβH1(1θ)βT1

暂时不深究Beta分布的相关性质,βHβT是Beta分布的两个参数
这里给出Beta分布的一个概率密度函数,直观上能有个认识
Beta概率密度函数
B函数是一个标准化函数,它只是为了使得Beta分布的概率密度积分等于1。
B(α,β)=Γ(α)Γ(β)Γ(α+β)

  现在有了先验和似然函数,我们可以得到后验。

P(θ|D)P(θ)P(D|θ)θβH1(1θ)βT1θαH(1θ)αTBeta(αH+βH,αT+βT)

  当然,这里我们得到的是一个关于θ的分布。但一般人,比如说富翁,可能更需要像上一篇博客中一样,给出一个单值来表示尖朝上的概率。
  最简单的,我们可以使用θ的期望:

E[θ]=10Beta(θ|αH+βH,αT+βT)θdθ=αH+βHαH+βH+αT+βT

Beta分布的期望:E[Beta(α,β)]=αα+β

  我们可以看到,一开始αH=αT=0θ的期望值为先验的期望值βHβH+βT,随着实验次数的增多,最后趋向于αHαH+αT。也就是说,一开始,我们可以根据先验知识(比如以前我们抛过硬币)认为抛图钉也是五五开,然后随着一次一次的实验,我们会发现事实与我们的认为不太一样,不断地修正我们的先验知识,最终得到αHαH+αT

最大后验近似(Maximum a posteriori approximation, MAP)

  很多时候,我们需要的可能不仅仅是关于θ的统计量,比如θ的期望、方差。很多时候,我们可能需要与θ相关的一个随机函数的统计量:

E[f(θ)]10f(θ)P(θ|D)dθ

  当然,我们是可以通过积分求解,因为我们知道P(θ|D)Beta(αH+βH,αT+βT)。但是积分毕竟还是太麻烦了,因此我们选择求一个近似,所以就用到了MAP。
θ^=argmaxθP(θ|D)=αH+βH1αH+βH+αT+βT2E[f(θ)]f(θ^)

  在这里我们也同样可以看到,当N=αH+αT时,先验会被“遗忘”,但是,当测试样本较小的时候,先验的影响很大(先入为主的想法很多时候是不对滴=_=)。

后续

  • 富翁:恩,图钉的这个问题我了解了。那现在我给你一个骰子,你能……
  • -:哦哦,我知道你想问什么……

  关于贝叶斯学习方法,其实只有一个小小的后续了。不过之后的故事还没有理清楚,所以打算拿这个小后续先缓一缓。要是理不清楚,就辞职不干吧hhh

0 0