学习理论-贝叶斯统计和正则化

来源:互联网 发布:文艺知乎 编辑:程序博客网 时间:2024/05/22 03:42

之前为了降低产生过拟合的可能性,我们从样本的所有属性中选取一部分属性集用以训练模型,这里介绍一种防止过拟合的不同的方法—正则化,它将会保留所有属性。

之前我们一直是通过求最大似然值确定参数(maximum likelihood (ML)):
这里写图片描述
上式中的θ是基于频率学派(frequentist)的观点对待的,频率学派认为,θ是一个固定不变的常量,只是我们现在还不知道它的值,而我们的目的就是基于统计学原理获得θ的近似值。
然而,贝叶斯学派(Bayesian)对于θ的观点与频率学派的观点是不同的,它们认为,θ是一个未知的随机变量,因此可以给出关于θ分布情况的先验概率p(θ),例如θ可能满足高斯分布等等(这是一种假设或者说是统计结果,此时并未考虑我们的训练样本).给定训练样本集S={(x(i),y(i))}mi=1, 我们可以求θ的后验概率:
这里写图片描述
注:
1、显然θ是一个向量,包含了θ1,θ2...,θm.
2、θ1,θ2...,θm已经是从贝叶斯学派的角度对待,它已经不是一个固定的值,而是“有很多可能值”,例如θ1可以是服从正态分布的连续变量。
3、上式中,分母处的积分是对向量θ中的元素θ1,θ2...,θm积分的简写。是一个高维积分。
4、p(y(i)|x(i),θ)依赖于所选择的模型,如果是逻辑回归p(y(i)|x(i),θ)=hθ(x(i))y(i)(1hθ(x(i)))1y(i).其中hθ(x(i))=11+eθTx(i)

如果新来一个样例特征为 x,那么为了预测 y。我们可以使用下面的公式:
这里写图片描述
p(θ|S)由前面的公式得到。假若我们要求期望值的话,那么套用求期望的公式即可:
这里写图片描述

注:
大多数时候我们只需求使得p(y|x,S)中最大的 y 即可(在 y 是离散值的情况下)。这次求解p(y|x,S)与之前的方式不同,以前是先求θ,然后直接预测,这次是对所有可能的θ作积分。

在频率学派中最大似然估计没有将θ视作y 的估计参数,认为θ是一个常数,只是未知其值而已,比如我们经常使用常数 c作为 y=2x+c的后缀一样。因此对于p(y(i)|x(i);θ)中的θ,对极大似然估计求导后,可以求出一个确定的值θ
而贝叶斯估计将θ视为随机变量, θ的值满足一定的分布,不是固定值,我们无法通过计算获得其值,只能在预测时计算积分。
然而在上述贝叶斯估计方法中, 虽然公式合理优美,但后验概率p(θ|S)很难计算,看其公式知道计算分母时需要在所有的θ上作积分,然而对于一个高维的θ来说,枚举其所有的可能性太难了。

因此,为了近似的代替θ的后验概率分布,我们一般使用中单点估计代替,这种方法称为最大
后验概率估计(MAP (maximuma posteriori) estimate ):
这里写图片描述
可以看出,这与我们之前的最大似然值公式很相似,只是后面多了一个关于θ的先验概率。
一般情况下我们认为θN(0,τ2I).
其实我觉得p(θ)可以理解为权重,对于一些噪音属性,p(θ)小,权重小。。。不知可否。

0 0
原创粉丝点击