《统计学习方法》第4章 课后题答案

来源:互联网 发布:网络支付的特点 编辑:程序博客网 时间:2024/05/16 23:53

这一章主要讲了朴素贝叶斯方法,书上的介绍比较简单,但是搞定第二个习题的过程中吃了很多苦头。


4.1 用极大似然估计法推出朴素贝叶斯法中的概率估计公式(4.8)及公式(4.9)

证明:
题干中要推导的两个公式分别如下:

P(Yck)=Ni=1I(yi=ck)N,k=1,2,,K

P(X(j)=ajl|Y=ck)=Ni=1I(x(j)i=ajl,yi=ck)Ni=1I(yi=ck)

这两个公式的推导过程很相似,所以这里只解决第一个(偷下懒,码公式很麻烦的┑( ̄Д  ̄)┍)

P(Y=ck)=p,同时记Ni=1I(yi=ck)=M。那么独立同分布随机抽取N个样本,其中Y=ck恰好发生M次的概率为:

P(p)=pM(1p)(Nm)

极大似然估计就是要寻找一个p的值p让概率P(p)最大,该问题等价于求p使得logP(p)最大(因为log函数是递增的)那么有:
d logP(p)dp=MpNM1p=MNpp(1p)

令上式等于0即可求得极值点:
p=MN

得证。


4.2 用贝叶斯估计法推出朴素贝叶斯法中的概率估计公式(4.10)及公式(4.11)

证明:
题干中要证明的两个公式分别如下:

Pλ(X(j)=ajl|Y=ck)=Ni=1I(x(j)i=ajl,yi=ck)+λNi=1I(yi=ck)+Sjλ

Pλ(Y=ck)=Ni=1I(yi=ck)+λN+Kλ

因为太懒时间的原因,这里我们只证明形式简单的第二个公式,第一个公式的证明类似。

假设Pλ(Y=ci)=πi,i=(1,2,,K)是随机变量,且πi,i=(1,2,,K)的先验分布是参数为λ的对称Dirichlet分布:

P(π1,,πK)=1B(λ)i=1Kπλ1i(1)

现有观测数据T={(x1,y1),,(xN,yN)},记Mi=Nj=1I(yj=ci)i=(1,2,,K)为随机变量。用π表示π1,,πK,用M表示M1,,MK。使用观测数据改进上述先验分布,以获取后验分布:

P(π|M)=P(M|π)P(π)P(M|π)P(π)dπ(2)

其中上式的分母P(M|π)P(π)dππ无关,可忽略。假设P(M|π)服从多项分布:

P(M|π)=πM11πMKK(3)

将(1),(3)式代入(2)中可得:
P(π|M)i=1Kπλ+Mi1i

由上式可以看出,后验概率P(π|M)也服从Dirichlet分布,因此Pλ(Y=ck)的值可取随机变量πi的期望:
E(πi)=Mi+λN+Kλ

得证。


后记:
在解决第二个问题之前我参考了博主xiaoxiao_wen的答案,但是TA的解答用了一个很诡异的方法,我没有看懂,并且貌似也没有用到贝叶斯估计的样子。所以就只能自己动手了。有不正确的地方希望大神指正。

证明过程参考了StackExchange上一个大神的答案。

阅读全文
1 0
原创粉丝点击