PRML Ch2: Probability Distributions 机器学习的概率基础

来源:互联网 发布:怎样开淘宝账号 编辑:程序博客网 时间:2024/06/16 05:27

几种常用的概率分布

PRML的第二章首先介绍了几种机器学习与模式识别中常用的概率分布,每种概率分布的介绍R遵循了:1.随机变量的分布律或概率密度函数 2.随机变量的性质如期望、方差 3.使用最大似然方法估计概率分布的参数 4.所对应的共轭先验分布。
对于高斯分布,作者讲的更加详细,在性质中补充了对于高斯分布方差的分析,以及条件高斯分布和边缘高斯分布, 线性高斯模型的推导。除了最大似然估计,作者还介绍了用最大后验的方法估计高斯分布参数。但是实际上仍不外乎以上四点,即分布、性质、参数估计和共轭先验的介绍。
前3点很容易理解不再赘述,共轭先验引入的原因来自于模型参数后验概率的推导:

p(w|D)=p(D|w)p(w)p(D|w)p(w)dw,

其中P(D|w)是数据集D 在参数w 下的似然函数。 如果把p(w|D)看成是关于w的函数,则不难看出p(w|D)p(D|w)p(w), 分母是关于w的常数,实际只是起到一个使p(w|D)的积分等于1的作用。所以我们只需关心p(D|w)p(w)即可。以高斯分布为例,假设我们已知方差Σ, 要估计均值μP(D|μ)N个高斯函数的连乘,其函数形式仍然是关于μ的高斯函数,这时如果我们假设p(μ)也是高斯分布,则p(D|μ)p(μ)的形式依然符合高斯分布,大大减小了以后的计算量。

估计高斯分布的均值我们可以使用高斯先验,估计伯努利分布的参数我们可以使用beta先验,那么其他函数呢?在本章的Exponential Family一章中可以看到,任何符合

p(x|η)=h(x)g(η)exp(ηTu(x))

的概率分布都可以有一个对应的先验分布。

如果使用最大似然估计,我们只需要最大化P(D|w) 就可以对w 的值做出点估计了,那么为什么还要计算P(w|D)呢?计算出P(w|D) 的好处在于可以使用full beyesian formula写出这个关于w的后验概率进一步写出输入x后预测值的概率:

p(y|x,D)=p(y|x,w)p(w|D)dw

而这种通过对参数积分来求得预测值边缘分布的方法,正是贝叶斯方法相比于最大似然,能避免过拟合的原因所在。

0 0
原创粉丝点击