统计学习方法第4章朴素贝叶斯法习题答案

来源：互联网发布：淘宝怎么显示佣金编辑：程序博客网时间：2024/06/06 05:26

1 描述

设输入空间X⊆Rn为n维向量的集合，输出空间为类标记集合Y={c1,c2,…,cK}。输入为特征向量x∈X，输出为类标记y∈Y。X是定义在输入空间X上的随机变量，Y是定义在输出空间Y上的随机变量。P(X,Y)是X和Y的联合概率分布。训练数据集

T = {(x 1, y 1), (x 2, y 2), \dots, (x N, y N)}

由

P(X,Y)独立同分布产生。

2 推导

P (Y | X) = P ( X Y ) P ( X ) = P ( X | Y ) P ( Y ) P ( X )

y = f (x) = a r g max c k P ( X | Y = c k ) P ( Y = c k ) P ( X ) = a r g max c k P (X | Y = c k) P (Y = c k) = a r g max c k P (Y = c k) \prod j P (X (j) = x (j) | Y = c k)

朴素贝叶斯法是典型的生成学习方法。

3 含义

朴素贝叶斯分类用的是概率模型y=P(Y|X)。为什么要这样呢？
损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。
假设选择0−1损失函数：

L (Y, f (X)) = {1, 0, Y \neq f (X) Y = f (X)

这时，期望风险函数为

R e x p (f) = E [L (Y, f (X))] = E X \sum k = 1 K L (c k, f (X)) P (c k | X)

为了使期望风险最小化，只需对

X=x逐个极小化，由此得到：

f (x) = a r g min y \in Y \sum k = 1 K L (c k, y) P (c k | X = x) = a r g min y \in Y P (y \neq c k | X = x) = a r g min y \in Y (1 - P (y = c k | X = x)) = a r g max y \in Y P (y = c k | X = x)

这样一来，根据期望风险最小化准则就得到了后验概率最大化准则：

f (x) = a r g max c k P (c k | X = x)

4 参数估计

学习意味着估计P(Y=ck)和P(X(j)=x(j)|Y=ck)。

4.1极大似然估计法

P (Y = c k) = \sum N i = 1 I ( y i = c k ) N, k = 1, 2, \dots, K (4.8)

设第

j个特征可能的取值的集合为

{aj1,aj2,…,ajSj}

P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) \sum N i = 1 I ( y i = c k ) j = 1, 2, \dots, N; l = 1, 2, \dots, S j; k = 1, 2, \dots, K (4.9)

4.2贝叶斯估计

P λ (Y = c k) = \sum N i = 1 I ( y i = c k ) + λ N + K λ, k = 1, 2, \dots, K (4.10)

设第

j个特征可能的取值的集合为

{aj1,aj2,…,ajSj}

P (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) i = a j l , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + S j λ j = 1, 2, \dots, N; l = 1, 2, \dots, S j; k = 1, 2, \dots, K (4.11)

常取

λ=1，这时称为拉普拉斯平滑。

5 习题

4.1 用极大似然估计法推出朴素贝叶斯法中的概率公式（4.8）及公式（4.9）
设θk=P(Y=ck),k=1,2,…,K
Ik=∑Ni=1I(yi=ck)

L (θ 1, θ 2, \dots, θ K) = \prod i = 1 N P (y i) = \prod k = 1 K θ I k k

其中

∑Kk=1θk=1,∑Ni=1Ik=N。

l (θ) = l o g L (θ) = \sum k = 1 K I k l o g θ k = \sum k = 1 K - 1 I k l o g θ k + (1 - \sum k = 1 K - 1 I k) l o g (1 - \sum k = 1 K - 1 θ k)

对它求导，求使导数为0的

θ值。

\partial l ( θ ) \partial θ k 即 I k θ k = I K θ K, (k = 1, 2, \dots, K - 1) 设 I k θ k = x, (k = 1, 2, \dots, K) I k x = θ k \sum k = 1 K I k x = \sum k = 1 K θ k N x = 1 x = N 即 I k θ k = N θ k = I k N 即 （ 4.8 ） = I k θ k - ( 1 - \sum K - 1 k = 1 I k ) 1 - \sum K - 1 k = 1 θ k = I k θ k - I K θ K = 0

（4.9）同理
4.2 用贝叶斯估计法推出朴素贝叶斯法中的概率估计公式（4.10）及公式（4.11）

贝叶斯估计和传统的极大似然估计的区别就是，参数值是固定的还是也当做随机变量。传统的极大似然估计，把参数θ当做固定的一个值，不变的，只是目前还不知道，通过最大化L求出θ；贝叶斯估计认为参数θ也是随机变量，它也服从一个分布（β分布）。

设：
θk=P(Y=ck),k=1,2,…,K
Ik=∑Ni=1I(yi=ck)

θ服从β分布：P(θ)=P(θ1,θ2,…,θK)=∏Ki=1θaii，在对系统类别分布一无所知的情况下，可以假设类别是均匀分布的，也就是a1=a2=⋯=aK，那么θ分布可以写成P(θ)=∏Ki=1θλi。

整体事件发生的概率如下：

L (θ) = P (Y 1, Y 2, \dots, Y N, θ) = \prod i = 1 N P (Y i) P (θ) = \prod k = 1 K θ I k k θ λ k = \prod k = 1 K θ I k + λ k

参数

θ=argmaxθL(θ)为了便于计算，对上式两边求对数，如下：

l (θ) = \sum k = 1 K (I k + λ) l o g θ k

其中

∑Kk=1θk=1,∑Ni=1Ik=N。

对l(θ)求偏导数，使其为0，得到参数θ。

\partial l ( θ ) \partial θ k = I k + λ θ k - I K + λ θ K = 0

由上式可得：θk=Ik+λIK+λθK，把所有θk加在一块得：

\sum k = 1 K θ k 1 = \sum k = 1 K I k + λ I K + λ θ K = N + K λ I K + λ θ K

得：

θ k = I K + λ N + K λ

即式（4.10）。（4.11）略。

阅读全文

0 0

统计学习方法 第4章 朴素贝叶斯法 习题答案