贝叶斯估计

来源:互联网 发布:淘宝代销商怎么做 编辑:程序博客网 时间:2024/05/16 05:21

ref: 《模式分类》(Richard O. Duda)chapter 3

1. 贝叶斯估计:

   把待估计的参数看成是符合某种先验概率分布的随机变量。

   最佳估计:对样本进行观测的过程,就是把先验概率密度转化为后验概率密度

                     这样就利用样本的信息修正了对参数的初始估计值。

2.具体推导过程

贝叶斯估计的核心:由先验概率、类条件概率密度,计算后验概率

已有样本集D,贝叶斯公式如下:

(1)

因为 1)先验概率可以事先得到,故P(wi|D)记为P(wi)

        2)i!=j时,Dj中的训练样本 对p(x|wi,D)没有影响,故p(x|wi,D)记为p(x|wi,Di)

所以,(1)变为:

(2)

(2)式将贝叶斯估计转为,处理c个独立的问题,每个问题都是如下形式:

已知一组训练样本D,这些样本都是从固定但未知的概率密度函数p(x)中独立抽取的,根据这些样本估计p(x|D)。

(如 关注第j类数据:把第j类训练样本Dj看作D,p(x|wj,Dj)=p(x|D) )

3. 参数的分布

D:训练集,theta:参数向量。

概率密度函数p(x)的形式已知,参数theta的值未知

在观察到D之前,对theta的全部知识表示为 先验概率密度函数:p(theta)。

希望通过对D的观察,把p(theta)转化为p(theta|D)。

(1)

因为 p(x,theta|D)=p(x|theta,D)p(theta|D),( 证:p(a|b,c)p(b|c)=p(a,b,c)/p(b,c) * p(b,c)/p(c)=p(a,b,c)/p(c)=p(a,b|c)    )

        测试样本x 和 D无关 --> p(x|theta,D)=p(x|theta)

(2)

结论:如果未知的概率密度函数具有一个已知的形式,

          已有的训练样本可以通过后验密度p(theta|D)对p(x|D)施加影响。


4. 贝叶斯估计过程 

step1: 求p(theta|D)

step2: 由式(2)求p(x|D)

【例子: 具体参考3.4.1和3.4.2节

高斯分布,只有u未知,估计u。】

分析:此时的u即是上文的未知参数theta

step1: 所有关于u的先验都在p(u)中,假设u服从,其中的2个参数均为已知。

则:


step2:用式(2)求


由p(x|D)的分布就可以估计出u。