PRML读书笔记(1)——第三章 线性回归模型

来源:互联网 发布:linux 源码安装lnmp 编辑:程序博客网 时间:2024/06/01 13:16

  • 线性基函数模型
    • 基本形式
    • Feature Extraction
    • 最大化似然函数和最小均方差Maximum likelihood and least squares
      • Example

线性基函数模型

基本形式

y(x,w)=w0+w1x1++wDxD=w0+j=1M1wjϕj(x)=j=0M1wjϕj(x)=wTϕ(x)

Feature Extraction

决定基函数(basis function){ϕj(x)}的过程,基函数选取可以包括

  • 线性
  • 幂次(存在着一个feature变化其他的feature也会变化的情况)
  • 高斯:ϕj(x)=exp{(xμj)22s2}
  • sigmoid function

最大化似然函数和最小均方差(Maximum likelihood and least squares)

讨论最大似然方法和最小均方差的关系

t=y(x,w)+ϵ

其中ϵ是均值为0的高斯随机值,精度为β(后面很多地方用到这个参数,其含义是数据的随机精度,是由数据本身确定的,在机器学习的过程中只能不断的去迫近这个值)。即有目标值概率密度函数符合高斯分布
p(t|x,w,β)=(t|y(x,w,β1))

一般来说,如果用均方差函数,那么关于t的最优预测结果是分布的均值,对于上面的式子,其条件均值为
E[t|x]=tp(t|x)dt=y(x,w)

Example

Input values: X={x1,,xN}, t={t1,,tN}是从上面的高斯随机分布中产生的数据,得到下面的似然函数

p(t|X,w,β)=n=1Nln(tn|wTϕ(xn),β1)

是对于整个训练数据的目标值的概率分布密度函数,忽略条件参数中的X并且取对数得到对数似然函数
lnp(t|w,β)=n=1Nln(tn|wTϕ(xn),β1)=N2lnβN2ln(2π)βED(w)

其中的ED(w)是均方误差函数
ED(w)=12n=1N{tnwTϕ(xn)}2

可以通过最大似然函数的方法去估计参数wβ,已知在高斯噪声的假设下(也就是说正常情况下最大化似然函数所覆盖的范围是比最小化均方差大的),最大化似然函数等同于最小化均方差函数ED(w)。首先求对数似然函数关于w的梯度为
lnp(t|w,β)=n=1N{tnwTϕ(xn)}ϕ(xn)T=0

存疑:这里涉及到矩阵求导,貌似上式中最后一项Φ(xn)T是采取了分子布局的结果,如果采取分母布局的化,应该是
lnp(t|w,β)=n=1Nϕ(xn){tnwTϕ(xn)}

但是两者之间求出来的值是否一致还不清楚,需要进一步讨论。

解得

0=n=1Ntnϕ(xn)TwTn=1Nϕ(xn)ϕ(xn)T

对该式求解,得到
wML=(ΦTΦ)1ΦTt

其中
Φ=ϕ0(x1)ϕ0(x2)ϕ0(xN)ϕ1(x1)ϕ1(x2)ϕ1(xN)ϕM1(x1)ϕM1(x2)ϕM1(xN)

这个推导过程还没有自己验证成功过 T^T
当把ED(w)中的w0提出来,得到
ED(w)=12n=1N{tnwTϕ(xn)}2=12n=1N{tnj=0M1wjϕj(xn)}2=12n=1N{tnw0j=1M1wjϕj(xn)}2

w0求导,得到
w0=tj=1M1wjϕjt=1Nn=1Ntnϕj=1Nn=1Nϕj(xn)

因此实际上w0刻画了目标值的均值和基函数的加权和的差值。相似的,易得β的最大似然估计为
1βML=1Nn=1N{tn=wTMLϕ(xn)}2