[竖立正确的贝叶斯三观] 关于predictive distribution 和非参贝叶斯的理解

来源:互联网 发布:矩阵纵横设计公司招聘 编辑:程序博客网 时间:2024/05/16 06:27

[竖立正确的贝叶斯三观] 关于predictive distribution 和非参贝叶斯的理解

非参贝叶斯框架:在probabilistic graphical models里,参数往往作为随机变量服从某些分布。利用贝叶斯公式求得后验参数的分布后,通过predictive distribution p(x^|x)=p(x^,θ|x)dθ可以预测新的数据。因为这里对最佳后验参数分布下的所有可能取值积分,故predictive distribution里不再含有参数,所以称为非参贝叶斯。

这里存在一个可能的问题,即predictive distribution 真的可以有解析解吗?因为p(x^|x)=p(x^,θ|x)dθ=p(x^|θ)p(θ|x)dθ(注意在i.i.d分布的数据里p(x^|θ,x)=p(x^|θ),所以观测数据独立同分布往往是非参贝叶斯里一个基本假设),只要满足p(θ)先验与p(x|θ)似然共轭,就能保证p(θ|x)p(x^|θ)继续共轭,从而告诉我们:只要参数先验存在CDF,那么predictive distribution就一定可积。当然,当模型比较复杂,我们未必能够保证先验与似然共轭,此时可以采用变分推断的方式构造共轭的近似后验q(θ|x)来代替未知的真实后验p(θ|x),然后得到近似的predictive distribution。或者采取采样的方法,求1LLl=1p(x^|θ(l))p(θ(l)|x)。采样方法得到的后验一般比变分推断方法更加准确,但耗时也更多。

有的朋友可能会问,为什么有时predictive distribution里依然含有参数?实际上,这些含有的参数并不作为随即变量,而是那些随机变量分布的参数,它们被称为超参数(hyper-parameters)

与非参贝叶斯相对应的,我们也往往可以通过参数估计的方式预测新的数据。在贝叶斯框架下, 此参数估计就是最大后验估计(maximum a posteriori, MAP),是一种点估计的方法。即选择合适的参数取值θ,使得后验分布最大。然后用这些参数取值去得到p(x^|θ)。MAP可以看做加了正则化项(先验)的极大似然(Maximum Likelihood, ML)估计。

​通过对比参数和非参数的方式,我们可以发现,非参数贝叶斯方法对所有参数θ的取值都进行了加权,在多个数据集上有更好的gerneralization,当先验与似然共轭时,计算相对简单;MAP对参数θ采用优化等方法求得最佳值,在特定数据集上的理论上效果应该比非参方法更好,但是计算更加复杂。

0 0