朴素贝叶斯分类

来源:互联网 发布:淘宝商家热线电话 编辑:程序博客网 时间:2024/06/05 16:46

贝叶斯决策论

设有 N 个类别,即 Y={c1,c2,...,cN}λij是将一个实际为 cj的样本标记为 ci的损失。那么,将样本 x 分类为 ci 的期望损失为:

R(ci|x)=j=1NλijP(cj|x)

我们要求的就是找到一个判断准则 h 使其总风险最小:
R(h)=Ex[R(h(x)|x)]

显然,若要最小化 R(h) 只需在每个样本上选择能使 R(ci|x) 最小的标记:
h(x)=argminR(c|x)

当我们的目标是最小化分类错误率时,条件风险为:
R(c|x)=1P(c|x)

于是:
h(x)=argmaxP(c|x)

贝叶斯公式:

P(c|x)=P(x,c)P(x)=P(c)P(x|c)P(x)

朴素贝叶斯分类

不难发现,基于贝叶斯公式来估计后颜概率 P(c|x)的主要困难在于:类条件概率 P(x|c)是所有属性上的联合概率,难以从有限的训练样本直接估计而得。
为了避开这个障碍,朴素贝叶斯分类器采用了 “属性条件独立假设”:对于已知类别,假设所有属性互相独立。那么:

P(c|x)=P(c)P(x|c)P(x)=P(c)P(x)i=1dP(xi|c)

其中,d为属性数目,xi x在第 i个属性上的取值。
由于对于所有类别来说 P(x)相同,因此贝叶斯判断准则有:

hnb(x)=argmaxcyP(c)i=1dP(xi|c)

原创粉丝点击