朴素贝叶斯分类器:例子解释

来源:互联网 发布:steam淘宝为什么便宜 编辑:程序博客网 时间:2024/06/05 21:55

1 引言

在昨天推送了用一个例子引入贝叶斯公式的基本思想,然后用贝叶斯公式对一个很简单的问题做分类,最后引出来一个问题:后验概率 P(c | x) 的求解转化为求解 P(c)和 P(x | c),P(c) 根据大数定律容易求得,所以 P(x | c)成为了最核心也是最迫切需要求解的问题。下面,借助一个例子解释它是如何求解的,这个求解思想有一个很朴素的名字:朴素贝叶斯分类器。

2 一堆苹果

笔者比较喜欢吃苹果,所以举例子总是会想起苹果,所以去超市买水果时,苹果往往是必备的。长年累月,摸索了一套挑选苹果的方法,一般红润而圆滑的果子都是好苹果,泛青无规则的一般都比较一般,现在根据之前几次买过的苹果,已经验证过了10个苹果,主要根据大小,颜色和形状这三个特征,来区分是好是坏,如下:

编号 大小 颜色 形状 好果
1 小 青色 非规则 否
2 大 红色 非规则 是
3 大 红色 圆形 是
4 大 青色 圆形 否
5 大 青色 非规则 否
6 小 红色 圆形 是
7 大 青色 非规则 否
8 小 红色 非规则 否
9 小 青色 圆形 否
10 大 红色 圆形 是

现在在超市我正要买的一个苹果的特征如下:
大小 颜色 形状 好果
大 红色 圆形 ?

问是好果还是一般的苹果?

假定,苹果的三个特征:大小,颜色,形状,是相互独立的,言外之意它们之间没有相关关系,关于相关关系的概念,请参考:相关系数 。

2 引出:类条件概率

第1节中的例子:10条苹果的数据为例,来解释下贝叶斯公式中一个非常重要的概率:P(x | c) ,理解它关系到对贝叶斯分类器整体的理解,因此好好理解下。

首先它是一个条件概率,是在 c 发生的条件下,x 出现的概率。 那么 c 是什么? c是整个数据集中所有种类中的一种,比如是好苹果,这个类; x 是在好苹果这个类别中所有属性的可能取值,在上面这个例子中,一共有3个属性,每个属性有2个不同取值,因此共有8个不同组合,所以 x 就是在8种不同取值中每个取值的样本个数。

例如在好苹果这类中,取值为 大,红色,圆形的样本有几个呢? 先找出好苹果的集合(个数是4),然后在这4个样本里找,发现有3个样本取值都为大,红色和圆形,所以 x 在8中不同取值中的这种组合下的样本个数为:3,所以
P(xi | c) = 3 / 4
其中 i 为1~8中的某个取值,在本例中为:大,红色,圆形

这里,称 P(x | c) 这种概率为:类条件概率,它等于在训练集中属于类别 c 的所有样本中,所有属性组合的样本出现的概率。

csdn博客图片不能直接黏贴,所以要想看剩余其他部分,请参考如下微信公众号地址:

朴素贝叶斯分类器:例子解释

算法与机器学习

这里写图片描述

原创粉丝点击