朴素贝叶斯分类

来源：互联网发布：开博尔网络机顶盒价格编辑：程序博客网时间：2024/06/05 18:15

朴素贝叶斯

朴素贝叶斯分类算法是基于两种假设的一种分类算法：

P (B | A) = P ( A | B ) P ( B ) P ( A )

证明：
条件概率公式

P(A|B)=P(AB)P(B)…式(1)

同理

P(B|A)=P(AB)P(A)…式(2)

联立可以得到

P(B|A)=P(A|B)P(B)P(A)

设P1(x)表达x属于类别一的概率，P2(x)表达x属于类别二的概率：

但是贝叶斯决策论真正进行比较的是P(c1|x)和P(c2|x)；通过贝叶斯定理我们可以得到计算该条件概率的方法因此

基于之前的理论我们正式定义一下朴素贝叶斯分类的流程：
设：

贝叶斯分类的关键在于求出P(y1|x),P(y2|x),...,P(yn|x)，这也是朴树贝叶斯算法的训练过程。
我们分别计算：

P(a1|y1),P(a2|y1),...,P(am|y1)

P(a1|y2),P(a2|y2),...,P(am|y2)

...

P(a1|yn),P(a2|yn),...,P(am|yn)

基于贝叶斯定理我们可以得到

P (y i | x) = P ( x | y i ) P ( y i ) P ( x )

分母对于所有类别来说可以看成一个常数，因此我们只需考虑分子，基于先前的假设，所有特征独立可以得到

P (x | y i) = P (a 1 | y i) P (a 2 | y i) . . . P (a m | y i) = Π m j = 1 P (a j | y i)

合并可以得到：

P (x | y i) P (y i) = P (y i) Π m j = 1 P (a j | y i)

若属性的取值为离散值我们很容易计算，就直接统计出训练样本中各个属性在每个样本中出现的频率就可以计算出P(a|y)。如果属性的取值为一个连续值的时候我们就要对其进行处理。
假定其值满足高斯分布:

p (x i | y j) = 1 2 π - - \sqrt σ i , j e - ( x - μ i , j ) 2 2 σ 2 i , j

这样我们只用计算出训练样本中类别

yi中特征

aj的均值和标准差，带入上式即可。
在实践中我们常通过取对数的方式来将连乘转化为连加，以避免数值的下溢。
需要注意的是若某个属性值在训练集中没有与某个类同时出现过，则计算出来的概率值为0,则会将其他属性携带的信息给抹去，因此我们需要用到“拉普拉斯修正”，来进行平滑。
设

N表示训练集

D中可能的类别数，

Ni表示第

i个属性可能的取值数

P (c) = | D c | + 1 | D | + N

P (x i | c) = | D c , x i | + 1 | D c | + N i

优点：在数据较少的情况下仍然有效，可以处理多类别问题
缺点：对于输入数据的准备方式较为敏感
适用数据类型：标称型数据

1 0