PRML读书笔记（二）：三种概率推断思想

来源：互联网发布：嘟嘟通话录音软件编辑：程序博客网时间：2024/04/29 04:40

在概率推断中，最直观的思想是哪一类事件发生的概率越大，我们就预测哪一种事件发生。而这一直观的想法，有三种表达方式：
注意下列使用到的数学符号如下：
x表示训练集
t表示训练集对应的标签（因变量值）
θ表示模型参数

极大似然估计（Maximum Likelihood）：
$a r g m a x θ P (t | x, θ)$
即寻找一个参数θ使得该训练集出现的概率最大。
极大后验概率估计（Maximum Posterior Density）
$M a x P (θ | x, t)$
即在后验分布中寻找概率密度最大的位置。虽然后验概率分布的计算过程使用了贝叶斯公式，但并不是一个完全的贝叶斯方法，因为使用的最大概率密度位置只是整个后验分布的一个特征。
贝叶斯估计（Bayesian Inference）：
$P (θ | x, t) \propto P (t | x, θ) P (θ)$
贝叶斯估计区别于极大后验概率估计的核心特点是保留了整个后验分布。而难点也恰恰是保留整个后验分布，能够用公式表达的后验分布是极为有限的，只有正态分布，伯努力分布等几个，如果后验分布没有办法使用公式来表达，那么只能通过有限的采样来拟合后验分布，这样概率密度就不准确，也会耗费大量的存储空间。如果要追求精确性，就需要每次使用后验分布时重新计算后验分布，这也是极为昂贵的。所以在机器学习中有共轭分布的概念，共轭分布是指先验分布和似然函数（可以看成一个条件分布）为共轭分布，如果这两个分布是共轭分布，那么它们相乘得到的后验分布就是同先验分布是一个类型的分布，举个例子，两个高斯分布相乘得到的也是一个高斯分布，这样就可以直接简单的对参数做计算便可以得到后验分布的参数，类似的例子还有β分布（先验）和伯努力分布（似然）也是共轭分布。共轭分布的概念解决了贝叶斯估计计算昂贵的问题，所以大家使用贝叶斯方法时选择的先验分布尽可以是似然函数的共轭分布。
当然共轭分布这个词听起来比较诡异，为什么用这样一个名称呢？相信大家都听过共轭根这个词，指某一个一元二次方程的根，基本形式是2+3√和2−3√就是一对共轭根，它们相乘之后等于1，复杂的无理数部分被消除了！共轭分布的思想也是这样的。

0 0