深入浅出朴素贝叶斯法(Naive Bayes)

来源：互联网发布：大亚湾网络问政编辑：程序博客网时间：2024/06/05 16:27

写在前面的介绍和感悟(…)

 Naive Bayes学习过程可以分为两步走。一是基于条件独立假设学习输入和输出的联合概率分布。二是利用贝叶斯定理及MAP假设求后验概率。

这一步可以转换为求先验概率分布(p(Y=ck))及条件概率分布(p(X=x|Y=ck),也称为似然概率)。
这里应用到了条件概率的公式，简单介绍一下，其实贝叶斯定理也是基于此得出的。
$p (A | B) = P ( A B ) p ( B )$ —————> $p (A B) = p (A | B) p (B) = p (B | A) p (A)$ —————> $p (B | A) = p ( A | B ) p ( B ) p ( A ) (贝叶斯公式)$
先验概率分布
p(Y=ck),k=1,2,...,K ,简单理解就是训练样本中每一类别的概率。
条件概率分布
$p (X = x | Y = c k) = p (X (1) = x (1), X (2) = x (2), . . ., X (n) = x (n) | Y = c k), k = 1, 2, . . ., K$
条件独立假设
假设内容是所有的数据特征在给定类别的条件下都是独立的。公式表示如下：
$p (X = x | Y = c k) = p (X (1) = x (1), X (2) = x (2), . . ., X (n) = x (n) | Y = c k) = \prod j = 1 n p (X (j) = x (j) | Y = c k)$
基于此，大大简化了条件概率的计算。直接计算，p(X=x|Y=ck)有指数量级的参数，很难计算。模型中的朴素也是由此得来。

根据贝叶斯定理计算后验概率
贝叶斯公式的推导和条件独立的说明在上文，这里会用到。简单介绍一下全概率公式，假设B1,B2,…,Bn为事件B的完备集划分，即它们的并集为B但又互相无交集。则有和B独立的事件A可以表示为:p(A)=∑Kk=1p(X=x|Y=ck)p(Y=ck)。由此可以得出p(X)=∑ni=1p(A|Bi)p(Bi)。
完整的推导过程如下：
$p (Y = c k | X = x) = p ( X = x | Y = c k ) p ( Y = c k ) p ( x ) = p ( Y = c k ) \prod n j = 1 p ( X ( j ) = x ( j ) | Y = c k ) \sum n i = 1 p ( A | B i ) p ( B i )$
最大化后验概率
于是根据MAP假设，可将贝叶斯分类器表示为：
$y = f (x) = a r g m a x p ( Y = c k ) \prod n j = 1 p ( X ( j ) = x ( j ) | Y = c k ) \sum n i = 1 p ( A | B i ) p ( B i )$
可以进一步简化为（分母不变）：
$y = a r g m a x P (Y = c k) \prod j = 1 n P (X (j) = x (j) | Y = c k)$

极大似然估计存在一个问题就是会出现估计的概率值为0的情况，会影响到后验的计算，从而导致误分类。贝叶斯通过加入一个正则项$\lambda\gt0$解决了这一问题，也可以把贝叶斯估计看做是正则化的极大似然估计。

条件概率的贝叶斯估计：
$P λ (X (j) = a j l | Y = c k) = \sum N i = 1 I ( x ( j ) = a j l i , y i = c k ) + λ \sum N i = 1 I ( y i = c k ) + S j λ$
通过给每一个取值加上一个正数，避免了取值为0的情况。
先验概率的贝叶斯估计：
$P (Y = c k) = \sum N i = 1 I ( y i = c k ) + λ N + K λ$

naive bayes最后将实例分到后验概率最大的类中，这么做的原理其实是期望风险最小化，即期望风险最小化等价于后验概率最大化。

推导过程：
损失函数定义如下：
$L (Y, f (X)) = {1, 0, Y \neq f (X) Y = f (X)$
期望风险函数：
$R e x p (f) = E (L (Y, f (X))$
接下来，取条件期望：
$R e x p (f) = E x \sum k = 1 K L (c k, f (X)) P (c k | X)$
这里好多资料基本都一带而过，也是我比较疑惑的地方。我的理解是，从公式本身来看，应该是已知X对类别Y的条件期望。
对X=x逐个极小化：
$f (x) = a r g m i n \sum k = 1 K L (c k, y) P (c k | X = x) = a r g m i n \sum k = 1 K P (y \neq c k | X = x) = a r g m i n \sum k = 1 K (1 - P (y = c k | X = x)) = a r g m a x \sum k = 1 K P (y = c k | X = x)$
至此，就完成了期望风险最小化到后验概率最大化的等价转换！

阅读全文

0 0