PRML Ch2: Probability Distributions 机器学习的概率基础

来源：互联网发布：怎样开淘宝账号编辑：程序博客网时间：2024/06/16 05:27

几种常用的概率分布

PRML的第二章首先介绍了几种机器学习与模式识别中常用的概率分布，每种概率分布的介绍R遵循了：1.随机变量的分布律或概率密度函数 2.随机变量的性质如期望、方差 3.使用最大似然方法估计概率分布的参数 4.所对应的共轭先验分布。
对于高斯分布，作者讲的更加详细，在性质中补充了对于高斯分布方差的分析，以及条件高斯分布和边缘高斯分布，线性高斯模型的推导。除了最大似然估计，作者还介绍了用最大后验的方法估计高斯分布参数。但是实际上仍不外乎以上四点，即分布、性质、参数估计和共轭先验的介绍。
前3点很容易理解不再赘述，共轭先验引入的原因来自于模型参数后验概率的推导:

p (w | D) = p ( D | w ) p ( w ) \int p ( D | w ) p ( w ) d w,

其中

P(D|w)是数据集

D 在参数

w 下的似然函数。如果把

p(w|D)看成是关于

w的函数，则不难看出

p(w|D)∝p(D|w)p(w), 分母是关于

w的常数，实际只是起到一个使

p(w|D)的积分等于1的作用。所以我们只需关心

p(D|w)p(w)即可。以高斯分布为例，假设我们已知方差

Σ, 要估计均值

μ，

P(D|μ)是

N个高斯函数的连乘，其函数形式仍然是关于

μ的高斯函数，这时如果我们假设

p(μ)也是高斯分布，则

p(D|μ)p(μ)的形式依然符合高斯分布，大大减小了以后的计算量。

估计高斯分布的均值我们可以使用高斯先验，估计伯努利分布的参数我们可以使用beta先验，那么其他函数呢？在本章的Exponential Family一章中可以看到，任何符合

p (x | η) = h (x) g (η) e x p (η T u (x))

的概率分布都可以有一个对应的先验分布。

如果使用最大似然估计，我们只需要最大化P(D|w) 就可以对w 的值做出点估计了，那么为什么还要计算P(w|D)呢？计算出P(w|D) 的好处在于可以使用full beyesian formula写出这个关于w的后验概率进一步写出输入x后预测值的概率：

p (y | x, D) = \int p (y | x, w) p (w | D) d w

而这种通过对参数积分来求得预测值边缘分布的方法，正是贝叶斯方法相比于最大似然，能避免过拟合的原因所在。

0 0