朴素贝叶斯解决天气问题

来源:互联网 发布:阿里云邮电脑客户端 编辑:程序博客网 时间:2024/06/11 20:46

朴素贝叶斯是一种基于贝叶斯定理的分类方法。该算法是有监督的学习算法,解决分类问题。在该算法中,我们假设给定目标值时,属性之间相互条件独立,即
这里写图片描述

贝叶斯定理:对于分类问题,样本x属于类别y的概率
这里写图片描述

其中, P(y)是指未使用数据训练分类器之前的y的初始概率,称为先验概率; P(x|y)是样本x相对于类别y的类条件概率,称为似然; P(y|x)是给定x时,y成立的概率,称为后验概率;P(x)是归一化证据因子。

用天气的数据集做预测,假设全部属性都对决策有着相同的重要性,且相互条件独立。按照类别统计了每个属性的取值次数如下表:
这里写图片描述

假设一个样本的属性值分别为sunny、cool、high和TRUE,要预测是否可运动(play=yes),概率的计算,例如outlook=sunny, play=yes的概率为:
这里写图片描述

我们可以先计算出play为yes的似然:
Yes的似然=
这里写图片描述
No的似然=
这里写图片描述
用规范化的方法将似然转化为概率,分母
这里写图片描述
为yes的似然加上no的似然,为
这里写图片描述

根据贝叶斯定理,play为yes的概率
这里写图片描述
play为no的概率
这里写图片描述

根据计算结果,当outlook为sunny、temperature为cool、humidity为high、windy为TRUE的情况下,play为no。

但如果分母这样计算:
这里写图片描述
与上面计算的分母0.025862不一致,因为朴素贝叶斯假定的是给定的属性目标值的情况下,属性之间是相互独立的,并不是在所有情况下属性之间都是相互独立的。