朴素贝叶斯分类

来源：互联网发布：淘宝商家热线电话编辑：程序博客网时间：2024/06/05 16:46

贝叶斯决策论

设有 N 个类别，即 Y={c1,c2,...,cN}，λij是将一个实际为 cj的样本标记为 ci的损失。那么，将样本 x 分类为 ci 的期望损失为：

R (c i | x) = \sum j = 1 N λ i j P (c j | x)

我们要求的就是找到一个判断准则

h 使其总风险最小：

R (h) = E x [R (h (x) | x)]

显然，若要最小化

R(h) 只需在每个样本上选择能使

R(ci|x) 最小的标记：

h * (x) = arg min R (c | x)

当我们的目标是最小化分类错误率时，条件风险为：

R (c | x) = 1 - P (c | x)

于是：

h * (x) = arg max P (c | x)

贝叶斯公式：

P (c | x) = P ( x , c ) P ( x ) = P ( c ) P ( x | c ) P ( x )

不难发现，基于贝叶斯公式来估计后颜概率 P(c|x)的主要困难在于：类条件概率 P(x|c)是所有属性上的联合概率，难以从有限的训练样本直接估计而得。
为了避开这个障碍，朴素贝叶斯分类器采用了 “属性条件独立假设”：对于已知类别，假设所有属性互相独立。那么：

P (c | x) = P ( c ) P ( x | c ) P ( x ) = P ( c ) P ( x ) \prod i = 1 d P (x i | c)

其中，d为属性数目，xi为 x在第 i个属性上的取值。
由于对于所有类别来说 P(x)相同，因此贝叶斯判断准则有：

h n b (x) = arg max c \in y P (c) \prod i = 1 d P (x i | c)

阅读全文

0 0