高斯判别分析(GDA)和朴素贝叶斯(NB)

来源：互联网发布：淘宝静电消除器原理编辑：程序博客网时间：2024/05/16 06:30

本文先介绍生成模型(generative model)和判别模型(discriminative model)的区别，然后重点介绍生成模型中的两个例子：高斯判别分析(Gaussian discriminant analysis)和朴素贝叶斯方法(Naive Bayes)

生成模型和判别模型

监督学习一般学习的是一个决策函数：

y = f (x)

或者是条件概率分布：

p (y | x)

判别模型直接用数据学习这个函数或分布，例如Linear Regression和Logistic Regression。
生成模型是用数据先学习联合概率分布

p(x,y)，然后根据贝叶斯公式求

p(y|x):

p (y | x) = p ( x , y ) p ( x ) = p ( x | y ) p ( y ) p ( x )

预测数据x的时候，当

p(y|x)最大时，此时的y即预测结果：

arg max y p (y | x) = arg max y p ( x | y ) p ( y ) p ( x ) = arg max y p (x | y) p (y) （ 因 为 y 的 取 值 不 影 响 p (x) 的 大 小 ， 所 以 可 以 忽 略 p (x) 的 值 ）

这里用了期望风险最小化准则(Empirical Minimization Principle)，具体可以查看《统计学习方法》的chapter4.1.2。

1.Gaussian Discriminant Analysis

在生成模型中，我们需要知道的就是p(x|y)和p(y)的分布（(p(x)=∑mi=1p(x|y=i)p(y=i)）。
如果我们观察到样本的X大致服从多维正态分布，那么这时候我们可以使用GDA模型来预测数据。
1、首先在GDA中假设：

y x | y = 0 x | y = 1 \sim B e r n o u l l i (ϕ) \sim N (μ 0, Σ) \sim N (μ 1, Σ)

也就是:

p (y) p (x | y = 0) p (x | y = 1) = ϕ y (1 - ϕ) 1 - y = 1 2 π n / 2 | Σ | 1 / 2 exp (- 1 2 (x - μ 0) T Σ - 1 (x - μ 0)) = 1 2 π n / 2 | Σ | 1 / 2 exp (- 1 2 (x - μ 1) T Σ - 1 (x - μ 1))

这里的x是所有特征

x1,x2,⋅⋅,xn组成的向量；n为x的维数；

μ0,μ1是正态分布的均值向量；

Σ是协方差矩阵，考虑到x特征的协方差不会受到y的种类的很大影响，还为了计算方便性，所以我们可以使用同个

Σ。

2.极大似然估计4个参数：ϕ,μ0,μ1,Σ
对数化似然函数

ℓ = l o g \prod i = 1 m p (x (i), y (i)) = l o g \prod i = 1 m p (x (i) | y (i)) p (y (i)) = \sum i = 1 m [y (i) l o g ϕ + (1 - y (i)) l o g (1 - ϕ) - 1 2 (x - μ y (i)) T Σ - 1 (x - μ y (i)) + l o g 1 2 π n / 2 | Σ | 1 / 2]

(1)对于ϕ：

\nabla ϕ ℓ = \sum i = 1 m (y (i) 1 ϕ - (1 - y (i)) 1 1 - ϕ)

令

∇ϕℓ=0,得

0 ϕ = \sum i = 0 m y (i) - \sum i = 0 m ϕ = 1 m \sum i = 1 m 1 {y (i) = 1}

(2)对于μ0：

\nabla μ 0 ℓ = \nabla μ 0 \sum i = 1 m ([- 1 2 (x (i) - μ 0) T Σ - 1 (x (i) - μ 0)] 1 {y (i) = 0}) = \sum i = 1 m ([1 2 Σ - 1 (x (i) - μ 0)] 1 {y (i) = 0})

令

∇μ0ℓ=0,得

0 μ 0 = \sum i = 1 m ((x (i) - μ 0) 1 {y (i) = 0}) = \sum m i = 1 1 { y ( i ) = 0 } x ( i ) \sum m i = 1 1 { y ( i ) = 0 } (直 观 解 释 是 y = 0 类 中 x 的 平 均 值)

(3)同理得μ1的估计值为

μ 0 = \sum m i = 1 1 { y ( i ) = 1 } x ( i ) \sum m i = 1 1 { y ( i ) = 1 } (直 观 解 释 是 y = 1 类 中 x 的 平 均 值)

(4)对于Σ：

\nabla Σ ℓ = \nabla Σ \sum i = 1 m (- 1 2 (x (i) - μ y (i)) T Σ - 1 (x (i) - μ y (i)) + l o g 1 2 π n / 2 | Σ | 1 / 2) = \sum i = 1 m ((x (i) - μ y (i)) (x (i) - μ y (i)) T Σ - 2 - Σ - 1)

令

∇Σℓ=0，得

\sum i = 1 m (x (i) - μ y (i)) (x (i) - μ y (i)) T = m Σ Σ = 1 m \sum i = 1 m (x (i) - μ y (i)) (x (i) - μ y (i)) T

至此我们得到了参数ϕ,μ0,μ1,Σ的估计。于是，我们可以通过argmaxyp(x|y)p(y)来预测新数据。最终GDA模型可见下图这里写图片描述

2.GDA and Logistic Regression

高斯判别和LR属于两种不同的模型，但却有着很大的关系。我们可以将GDA的p(y=1|x)化为x的函数得到

p (y = 1 | x; ϕ, μ 0, μ 1, Σ) = 1 1 + exp ( - θ T x )

这里的

θ是关于ϕ,μ0,μ1,Σ的函数，由此我们可以看到GDA是可以转化为LR的。为什么呢？
因为在GDA我们假设X是服从高斯分布，Y服从伯努利分布，而在LR中我们只假设了Y是伯努利分布，所以强假设必然是可以推出弱假设的。事实上只要X服从指数分布族，我们都可以推导出LR；相反，LR没法推导出GDA，因为LR本身是不知道X的真实分布的。（回忆LR的推导，我们是通过指数分布族来找到X到Y的映射函数，然后再进行学习参数

θ；也就是说，其实不管x是什么分布，我们都可以通过指数分布族变换得到logistic function来进行映射）。
那么什么时候用GDA，什么时候用LR呢？当我们知道X的分布时，GDA明显是更好的选择，因为它做了更强的假设，实际中，即使数据很少，GDA也会有很好的效果；然而，大部分时候我们都是不知道X的分布的，所以LR会有更好的健壮性。

3.Naive Bayes

朴素贝叶斯模型也是生成模型中的一种。
在GDA中，我们假设X是连续的，服从高斯分布；NB中我们假设X是离散的，服从多项分布（包括伯努利）。GDA的X可以用多维高斯分布表示，但是在NB中我们却不能直接使用多项分布。我们用垃圾邮件分类器来阐述NB的思想。
在这个分类器中我们可以用单词向量作为输入特征，具体的，我们的单词书中如果一共有50000个词，那么一封邮件的x向量可以是

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 100 \cdot \cdot 1 \cdot \cdot 0 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ a a a r d v a r k a a r d w o l f \cdot \cdot b u y \cdot \cdot z e n

x是一个50000维的向量，在这封邮件中如果存在字典中的词，那该词所在的位置设置为1；否则为0。
如果要直接用多项分布对

p(x|y)建模，

p(x|y)共有

250000个不同的值，那么我们至少需要

250000−1个参数使参数和为1，对如此多的参数进行估计是不现实的，所以我们做一个强假设来简化概率模型。

3.1 建模

1.假设
在NB中，我们假设x的每一维特征（也就是每一个词）都是条件独立的：即每个词在邮件中都独立出现，互不影响。而现实中有些词是很可能同时出现的，比如nike和sport，所以这就是naive bayes中naive的由来。尽管如此，NB对于大部分问题还是有很好的效果。根据这个假设可以得到

p (x 1, \cdot \cdot \cdot, x 50000 | y) = p (x 1 | y) p (x 2 | y, x 1) p (x 3 | y, x 1, x 2) \cdot \cdot \cdot p (x 50000 | y, x 1, \cdot \cdot \cdot, x 49999) = p (x 1 | y) p (x 2 | y) p (x 3 | y) \cdot \cdot \cdot (x 50000 | y) = \prod j = 1 n p (x j | y)

第一个等式使用了条件概率链式法则，第二个等式利用了条件独立假设。这时候模型就可以用

ϕj|y=1,ϕj|y=0,ϕy参数来建模了，其中

ϕj|y=1=p(xj=1|y=1),ϕj|y=0=p(xj=1|y=0),ϕy=p(y=1)。
注意

xj是输入x中的第j个特征（第j个单词）。

2.极大似然估计

对数化似然函数

（1）对于ϕj|y=0,

这里写图片描述

这个估计的直观解释就是所有y=0的样本中有单词xj的邮件数量除以y=0样本个数

（2）同理得

ϕ j | y = 1 = \sum m i = 1 1 { x ( i ) j = 1 \land y ( i ) = 1 } \sum m i = 1 1 { y ( i ) = 1 }

这个估计的直观解释就是所有y=1的样本中有单词

xj的邮件数量除以y=1样本个数

这里写图片描述

3.预测
利用training_set，我们可以估计出ϕi|y=1,ϕi|y=0,ϕy，得到p(x|y=1)。根据贝叶斯公式

p (y = 1 | x) = p ( x | y = 1 ) p ( y = 1 ) p ( x )

我们可以

argmaxyp(x|y)p(y)来分类垃圾邮件。

3.2 Laplace smoothing

p (x j = a l | y = c k) = \sum m i = 1 1 { x ( i ) j = a l \land y ( i ) = c k } + λ \sum m i = 1 1 { y ( i ) = c k } + l λ （ x j \in a 1, a 2, \cdot \cdot \cdot, a l ）

后验概率

p(y)的贝叶斯估计是

p (y = c k) = \sum m i = 1 1 { y ( i ) = c k } + λ m + k λ

当λ=1时，我们叫这种估参处理方法为laplace smoothing，邮件分类器中的参数估计自然就变成

ϕ j | y = 1 = \sum m i = 1 1 { x ( i ) j = 1 \land y ( i ) = 1 } + 1 \sum m i = 1 1 { y ( i ) = 0 } + 2 ϕ j | y = 0 = \sum m i = 1 1 { x ( i ) j = 1 \land y ( i ) = 0 } + 1 \sum m i = 1 1 { y ( i ) = 0 } + 2 ϕ y = \sum m i = 1 1 { y ( i ) = 1 } + 1 m + 2

这样就不会出现0的情况了，事实上这也是贝叶斯估计和极大似然估计的差别。

3.3 应用

邮件分类器中我们的输入x仅仅是一个伯努利分布，xi∈{0,1}。根据不同应用的特点，我们完全可以让xi∈{0,1,2⋅⋅⋅,k}，然后用多项分布来建模。
在有些情况下，我们的x不能很好被GDA，我们就可以尝试离散化数据，比如在房价预测问题中，离散化处理房子面积数据，然后就可以使用NB来预测了。这里写图片描述

4.文本分类事件模型

在前面叙述的邮件分类模型中，我们假设x是二项分布的，显然这种模型没有考虑到单词出现次数对邮件分类的影响程度。所以我们有了multinomial event model。还是和原来模型一样，有一份字典含有50000个单词，一份邮件以“The NIPS is ……”开头，在multinomial event model中，这封邮件的x可以表示为

x = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ ⎢ 3555523333133331 \cdot \cdot \cdot 45555 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ ⎥ T h e N I P S i s a \cdot \cdot \cdot w e l c o m e

x的维数由邮件中的单词数量决定。

这种事件模型的对数似然函数为

ℓ = l o g \prod i = 1 m p (x (i), y (i)) = l o g \prod i = 1 m p (x (i) | y (i)) p (y (i)) = l o g \prod i = 1 m ⎛ ⎝ \prod j = 1 n i p (x (i) j | y (i)) ⎞ ⎠ p (y (i))

这里的

ni对于每个样本都是不一样的。
所以参数估计就是

ϕ k | y = 1 = \sum m i = 1 \sum n i j = 1 1 { x ( i ) j = k \land y ( i ) = 1 } + 1 \sum m i = 1 1 { y ( i ) = 0 } n i + 50000 ϕ k | y = 0 = \sum m i = 1 \sum n i j = 1 1 { x ( i ) j = k \land y ( i ) = 0 } + 1 \sum m i = 1 1 { y ( i ) = 0 } n i + 50000 ϕ y = \sum m i = 1 1 { y ( i ) = 1 } + 1 m + 2

阅读全文

0 0