贝叶斯线性回归

来源：互联网发布：淘宝互刷群号编辑：程序博客网时间：2024/06/03 08:12

本文主要是根据笔者对@Duaaxx关于贝叶斯回归的博客的笔记。建议阅读原文，质量非常高。

最大似然与最大后验

确定概率密度分布需要知道两个参数：概率密度模型以及模型参数。也即在估计概率密度分布的时候不仅仅是对参数的估计，首先需要确定模型，然后才是参数估计。
最大似然与最大后验的区别：
最大似然把模型参数θ作为一个位置且固定的数，我们需要做的是算出这个固定的值，这里的θ本身不是一个概率分布。
最大后验是θ的函数，对θ的概率分布，这里的θ不是一个值，而是一个概率分布。
最大似然是在θ是一个值的时候找到它，而最大后验是在θ有很多取值的情况下找到最可能的θ。
最大似然估计是基于已知样本集得到的估计，所以容易对当前样本集产生过拟合（详见PRML第108页）。
最大似然是需要对所有的已知样本进行概率计算，并且进行连乘，对连乘得到的概率最大以求得对整个已知样本集的整体loss最小（详见PRML第103页）。最大后验我猜测是对当前需要预测的样本进行后验概率的最大化，所以最大似然有连乘但最大后验却没有
最大似然的物理意义：最大似然就是在模型已知的情况下，找到一个参数θ使得在这个参数θ下对已知样本集的预测与已知样本集真实标签最接近。这里最大化的目标是最小化在已知样本集上预测值与真实值之间的差异。这么做的基于的假设是：在已知样本集上预测的很好，那么在未知的样本上依然可以比较好。
最大后验的物理意义：最大后验是对P(θ|X)的最大化（对θ的概率的最大化），通过最大化概率找到最好的θ（因为最大化的对象是θ的函数），也就是最有可能的θ。这里找最大的P(θ|X)是因为当P最大是表明这时的θ是最有可能的θ。

贝叶斯线性回归

贝叶斯估计核心问题：
样本集合D中的样本都是从一个固定但是未知的概率密度函数p(x)中独立抽取出来的，要求根据这些样本估计x的概率分布，记为p(x|D)，并且使得p(x|D)尽量的接近p(x)，这就是贝叶斯估计的核心问题。也就是说通过已知样本集的分布近似总体样本的分布，并且要求尽量相似。
贝叶斯估计第一个重要元素：p(x|θ)。其中，我认为这里的θ是在已知样本集D上得到的θ的先验分布，这里的x是新的预测样本，p(x|θ)就是θ 在点 x 处的似然估计。
贝叶斯估计第二个重要元素：p(θ|D)。p(θ|D)是θ在已知样本集D上的后验分布，并且我们希望p(θ|D)在θ的真实值附近有非常显著的尖峰。
贝叶斯估计：p(x|D)=∫p(x|θ)p(θ|D)dθ。这里p(x|θ)是θ关于测试样本x这一个点的似然估计，而p(θ|D)则是θ在已有样本集合上的后验概率。但是p(θ|D)可以看作是θ在测试样本x这点的先验概率。也就是说p(x|D)依然是等于似然乘以先验，只是这个先验是在已知样本集得到的一个后验。
贝叶斯增量学习，参见原博客，讲的很清晰。

http://blog.csdn.net/daunxx/article/details/51725086

阅读全文

0 0