统计学习方法 第4章 朴素贝叶斯法 习题答案

来源:互联网 发布:淘宝怎么显示佣金 编辑:程序博客网 时间:2024/06/06 05:26

1 描述

设输入空间XRnn维向量的集合,输出空间为类标记集合Y={c1,c2,,cK}。输入为特征向量xX,输出为类标记yYX是定义在输入空间X上的随机变量,Y是定义在输出空间Y上的随机变量。P(X,Y)XY的联合概率分布。训练数据集

T={(x1,y1),(x2,y2),,(xN,yN)}
P(X,Y)独立同分布产生。

2 推导

P(Y|X)=P(XY)P(X)=P(X|Y)P(Y)P(X)

y=f(x)=argmaxckP(X|Y=ck)P(Y=ck)P(X)=argmaxckP(X|Y=ck)P(Y=ck)=argmaxckP(Y=ck)jP(X(j)=x(j)|Y=ck)

朴素贝叶斯法是典型的生成学习方法。

3 含义

朴素贝叶斯分类用的是概率模型y=P(Y|X)。为什么要这样呢?
损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。
假设选择01损失函数:

L(Y,f(X))={1,0,Yf(X)Y=f(X)

这时,期望风险函数为
Rexp(f)=E[L(Y,f(X))]=EXk=1KL(ck,f(X))P(ck|X)

为了使期望风险最小化,只需对X=x逐个极小化,由此得到:
f(x)=argminyYk=1KL(ck,y)P(ck|X=x)=argminyYP(yck|X=x)=argminyY(1P(y=ck|X=x))=argmaxyYP(y=ck|X=x)

这样一来,根据期望风险最小化准则就得到了后验概率最大化准则:
f(x)=argmaxckP(ck|X=x)

4 参数估计

学习意味着估计P(Y=ck)P(X(j)=x(j)|Y=ck)

4.1极大似然估计法

P(Y=ck)=Ni=1I(yi=ck)N,k=1,2,,K(4.8)

设第j个特征可能的取值的集合为{aj1,aj2,,ajSj}
P(X(j)=ajl|Y=ck)=Ni=1I(x(j)i=ajl,yi=ck)Ni=1I(yi=ck)j=1,2,,N;l=1,2,,Sj;k=1,2,,K(4.9)

4.2贝叶斯估计

Pλ(Y=ck)=Ni=1I(yi=ck)+λN+Kλ,k=1,2,,K(4.10)

设第j个特征可能的取值的集合为{aj1,aj2,,ajSj}
P(X(j)=ajl|Y=ck)=Ni=1I(x(j)i=ajl,yi=ck)+λNi=1I(yi=ck)+Sjλj=1,2,,N;l=1,2,,Sj;k=1,2,,K(4.11)

常取λ=1,这时称为拉普拉斯平滑。

5 习题

4.1 用极大似然估计法推出朴素贝叶斯法中的概率公式(4.8)及公式(4.9)
θk=P(Y=ck),k=1,2,,K
Ik=Ni=1I(yi=ck)

L(θ1,θ2,,θK)=i=1NP(yi)=k=1KθIkk

其中Kk=1θk=1,Ni=1Ik=N
l(θ)=logL(θ)=k=1KIklogθk=k=1K1Iklogθk+(1k=1K1Ik)log(1k=1K1θk)

对它求导,求使导数为0的θ值。
l(θ)θkIkθk=IKθK,(k=1,2,,K1)Ikθk=x,(k=1,2,,K)Ikx=θkk=1KIkx=k=1KθkNx=1x=NIkθk=Nθk=IkN4.8=Ikθk(1K1k=1Ik)1K1k=1θk=IkθkIKθK=0

(4.9)同理
4.2 用贝叶斯估计法推出朴素贝叶斯法中的概率估计公式(4.10)及公式(4.11)

贝叶斯估计和传统的极大似然估计的区别就是,参数值是固定的还是也当做随机变量。传统的极大似然估计,把参数θ当做固定的一个值,不变的,只是目前还不知道,通过最大化L求出θ;贝叶斯估计认为参数θ也是随机变量,它也服从一个分布(β分布)。

设:
θk=P(Y=ck),k=1,2,,K
Ik=Ni=1I(yi=ck)

θ服从β分布:P(θ)=P(θ1,θ2,,θK)=Ki=1θaii,在对系统类别分布一无所知的情况下,可以假设类别是均匀分布的,也就是a1=a2==aK,那么θ分布可以写成P(θ)=Ki=1θλi

整体事件发生的概率如下:

L(θ)=P(Y1,Y2,,YN,θ)=i=1NP(Yi)P(θ)=k=1KθIkkθλk=k=1KθIk+λk

参数θ=argmaxθL(θ)为了便于计算,对上式两边求对数,如下:
l(θ)=k=1K(Ik+λ)logθk

其中Kk=1θk=1,Ni=1Ik=N

l(θ)求偏导数,使其为0,得到参数θ

l(θ)θk=Ik+λθkIK+λθK=0
.

由上式可得:θk=Ik+λIK+λθK,把所有θk加在一块得:

k=1Kθk1=k=1KIk+λIK+λθK=N+KλIK+λθK

得:
θk=IK+λN+Kλ

即式(4.10)。(4.11)略。

阅读全文
0 0