[PRML] Bayesian Learning 贝叶斯学习方法

来源：互联网发布：北京seo网站排名优化编辑：程序博客网时间：2024/05/24 07:35

前面的故事

上一篇[PRML] Bayesian Learning 贝叶斯学习方法的最后，富翁又向我们提出了新的问题。

富翁：现在我给你一个骰子，你能告诉我掷一次每个点数出现的概率吗？
-：恩，我可以用差不多的方法解决你的问题。

给富翁的解释

实际上，这个问题只是把θ从一个变量扩展成了一维变量θθ。
我们设θθ={θ1,...,θr},θ1+...+θr=1表示每个点数出现的概率。于是，掷一次骰子，出现点数xk的概率为P(X=xk|θθ)=θk,k=1,2,...,r其中xk表示θk对应的点数。假设我们得到的测试数据为D={X1=x1,...XN=xN}，我们可以把它转化为各个点数出现过的次数，即D={X1=x1,...XN=xN}⇒{N1,...,Nr}。因此P(D|θθ)=∏ri=1θiNi。
以上的方程总结如下：

θ θ = {θ 1, . . ., θ r}, θ 1 + . . . + θ r = 1 P (X = x k | θ θ) = θ k, k = 1, 2, . . ., r D = {X 1 = x 1, . . . X N = x N} \Rightarrow {N 1, . . ., N r} P (D | θ θ) = \prod i = 1 r θ i N i

我们得到的似然函数

P(D|θθ)=∏ri=1θiNi是多项式分布，对于多项式分布，其共轭先验是狄利克雷分布(Dirichlet distribution)

P(θθ)=Dir(θθ|α1,...,αr)=Γ(α)∏rk=1Γ(αk)∑rk=1θkαk−1,α=∑rk=1αk。
至此我们可以得到后验：

P (θ θ | D) \propto P (θ θ) P (D | θ θ) \propto D i r (θ θ | α 1, . . ., α r) \prod k = 1 r θ k N k \sim D i r (θ θ | α 1 + N 1, . . ., α r + N r)

然后我们就可以估计再掷一次骰子，点数

xk出现的概率：

P (X N + 1 = x k | D) = \int θ k D i r (θ θ | α 1 + N 1, . . ., α r + N r) d θ θ = α k + N k α + N α = \sum i = 1 r α i, N = \sum i = 1 r N i

一个比较重要的事实：

$P (D) = Γ ( α ) Γ ( α + N ) \prod k = 1 r Γ ( α k + N k ) Γ ( α k ) α = \sum i = 1 r α i, N = \sum i = 1 r N i$

故事完结

至此，关于丢图钉掷骰子的故事就结束了。然而富翁的问题似乎远远没有结束……(大佬求放过>_<)

0 0