第一章 绪论

来源:互联网 发布:网络电子游戏官网 编辑:程序博客网 时间:2024/04/30 11:22

1. 贝叶斯概率公式

加法规则:p(X)=Yp(X,Y)

乘法规则:p(X,Y)=p(Y|X)p(X)

贝叶斯公式:p(Y|X)=p(X|Y)p(Y)p(X)

2. 用贝叶斯的观点解释多项式拟合

本节对应PRML (Pattern Recognition and Machine Learning)的1.2.5节。给定训练集x=(x1,x2,,xN)T,样本标签t=(t1,t2,,tN)T,可以用一个高斯分布来描述目标值t的不确定性。对于多项式拟合来说,我们有

y(x,x)=w0+w1x+w2x++wMx=j=0Mwjxj

其中M是多项式的阶数,xjxj次幂。拟合误差
en=y(xn,w)tn,n=1,2,,N

按照贝叶斯理论的观点,拟合误差服从均值为0方差为σ2的高斯分布,记β=1σ2,即enN(0,β1)。下图显示了这种描述关系

因此训练数据{x,t}可以用来估计xβ的最大似然估计值。似然函数

p(t|x,w,β)=n=1NN(tn|y(xn,w),β1)

对似然函数取对数,得
lnp(t|x,w,β)=β2n=1N(y(xn,w)tn)2+N2lnβN2ln(2π)

当取β=1时,对数似然函数可以简化为

lnp(t|x,w,1)=12n=1N(y(xn,w)tn)2

最大化对数函数等价于最小化误差平方和函数,此时与多项式拟合的目标变的一致。当参数β不是固定值时,我们精度参数,因为β与误差的方差有关,从上图也可以看出。同样,对数似然函数对β1(将β1看成一个整体,而不是一个数的倒数)求偏导,令偏导数等于0,可求得β1的最大似然估计值
1βML=1Nn=1N(y(xn,wML)tn)2

其中wML是参数w的最大似然估计值。

估计出参数wβ之后,我们可以对测试集中的x做预测,并且可以给出预测值等于t的概率,这是利用贝叶斯方法估计参数的优点之一。

p(t|x,wML,βML)=N(t|y(x,w),β1ML)

此时是相对于测试集来说的。

下面用贝叶斯的观点来解释模型参数正则化,来解决过拟合问题。假定多项式系数w也服从如下的高斯分布

p(w|α)=N(w|0,α1I)=(α2π)(M+1)/2exp(α2wTw)

其中α称之为超参数,控制参数w的分布。应用贝叶斯定理,w后验分布正比于先验分布和似然函数的成绩
p(w|x,t,α,β)p(t|x,w,β)p(w|α)

原因是:p(w|x,t,α,β)=p(w,x,t,α,β)/p(x,t,α,β)=p(t|w,x,α,β)p(w,x,α,β)/p(x,t,α,β) =p(t|w,x,b)p(w|x,β,α)p(x,β,α)/p(x,t,α,β)=p(t|w,x,β)p(w|α)p(x,β,α)/p(x,t,α,β), αt无关,故p(t|w,x,b,α)α可省略,因为αw的超参故p(w|x,β,α)=p(w|α)
通过最大化后验概率(MAP),我们可以估计出所有的参数,其对数似然函数是
β2n=1N(y(xn,w)tn)2+α2wTw

上式省略了与参数无关“常数项”。此时相当于正则项的惩罚系数λ=α/β

3. 贝叶斯曲线拟合

前面的分析我们加入了先验分布p(w|α),但是我们对w估计任然是点估计,因此还不能将其视为贝叶斯解法。在整套贝叶斯方法下,我们将运用概率的求和法则和乘积法则,对w求积分得到关于w的边缘分布,这才是模式识别中贝叶斯方法的核心。

在曲线拟合中,我们给定训练集xt,估计出模型参数w,对于预测集中的点x,我们的目标是用这个模型预测出与这个点相对应的目标值t。这里我们假定αβ是固定并且已知的(在后面的章节中我们将讨论如何在贝叶斯的框架下面从训练数据中估计这两个参数)。

我们最终需要在预测集上得到如下的分布

p(t|x,x,t)=p(t|x,w)p(w|x,t)dw

推导过程是:根据贝叶斯求和法则(对连续型变量来说相当于积分)p(t|x,x,t)=p(t,w|x,x,t)dwp(t,w|x,x,t)=p(t,w,x,x,t)p(x,x,t)=p(t,w,x,x,t)p(w,x,x,t)p(w,x,x,t)p(x,x,t) =p(t|w,x,x,t)p(w|x,x,t), 由于t关于xt条件独立,因此p(t|w,x,x,t)可以简化为p(t|w,x),而w与测试集中的点x无关,所以p(w|x,x,t)=p(w|x,t),综合起来p(t|x,x,t)=p(t|x,w)p(w|x,t)dw

参考文献

[1] Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer, 2006.

0 0
原创粉丝点击