topic model,bayes inference,probilitity
来源:互联网 发布:手机c语言编辑器中文 编辑:程序博客网 时间:2024/06/07 22:00
今天看了mle最大似然估计,为甚要最大呢?
我们有理由认为实验出来的x1,x2,....xn,应该是概率比较大,只有概率比较大的才更可能被我们实验到。
所以要使联合概率尽量大,也即最大似然估计。
然后是bayes估计。
边缘估计,margin。对于二维的来说(x,y)也即概率受2个变量的影响。
共轭先验分布
定义,设总体X的分布密度为p(x|θ),F*为θ的一个分布族,π(θ)为θ的任意一个先验分布,π(θ)∈F*,若对样本的任意观察值x,θ的后验分布h(θ|x)仍在分布族F*内,则称F*关于分布密度p(x|θ)的共轭先验分布族,或简称为共轭族。共轭先验分布是对分布中的参数而言的,如正态均值、正态方差、泊松均值等。由于可以将m(x)看成是与θ无关的,也即m(x)可以看成是常数。
所以后验分布h(θ|x)的主要部分,或者称h(θ|x)的核是π(θ)q(x|θ)
通常,共轭先验分布可以用下述方法获得:首先求出似然函数q(x|θ),根据q(x|θ)中所含的θ的因式情况,选取与似然函数具有相同核的分布作为先验分布,这个分布往往就是共轭先验分布。
常用共轭先验分布
总体分布 参数 共轭先验分布
二项分布 成功概率 贝塔分布
泊松分布 均值 Γ分布
指数分布 均值的倒数 Γ分布
正态分布(方差已知) 均值 正态分布
正态分布(均值已知) 方差
我们有理由认为实验出来的x1,x2,....xn,应该是概率比较大,只有概率比较大的才更可能被我们实验到。
所以要使联合概率尽量大,也即最大似然估计。
然后是bayes估计。
边缘估计,margin。对于二维的来说(x,y)也即概率受2个变量的影响。
还是用一个例子来说明。
例:为了提高某产品的质量,公司经理考虑增加投资来改进生产设备,预计需要投资90万元,但从投资效果看,顾客们提供了2个不同意见:
θ1:改进后,高质量产品可以占90%
θ2:改进后,高质量产品可以占70%
经理当然希望效益越高越好,但是经理认为θ1的可信度只有40%,θ2的可信度是60,即π(θ1)=0.4,π(θ2)=0.6
这2个都是经理的主观概率,经理不想仅仅用过去的经验来决策这件事,想慎重一些,通过小规模试验后观测结果再决定。试验结果(记为A)如下:
A:试造5个产品,全是高质量的产品。
经理对此次的结果很满意,希望用此次试验修改原先的θ1,θ2的看法,即要求后验概率
h(θ1|A)与h(θ2|A)。这可采用bayes公式来完成,现已有先验概率π(θ1)=0.4,π(θ2)=0.6,还需要2个条件概率p(A|θ1),p(A|θ2),由二项分布得
p(A|θ1)=0.9^5=0.590p(A|θ2)=0.7^5=0.168
由全概率公式算得
P(A)=P(A|θ1)π(θ1)+P(A|θ2)π(θ2)=0.337
于是可求得后验概率为
h(θ1|A)=p(A|θ1)π(θ1)/P(A)=0.236/0.337=0.7
h(θ2A)=p(A|θ2)π(θ2)/P(A)=0.101/0.337=0.3
如过不满意还可以继续做试验,不过后续的使用应该使用上一次试验改进过后的π(θ)
所以后验分布h(θ|x)的主要部分,或者称h(θ|x)的核是π(θ)q(x|θ)
总体分布
二项分布
泊松分布
指数分布
正态分布(方差已知)
正态分布(均值已知)