朴素贝叶斯分类器——理论

来源:互联网 发布:剑网三重制版 知乎 编辑:程序博客网 时间:2024/06/05 05:57

通过《统计学习方法》第4章了解朴素贝叶斯分类器基本原理,同时,“龙心尘”关于朴素贝叶斯的三篇博文也受益匪浅。博客地址:http://blog.csdn.net/longxinchen_ml/article/details/50597149
本文总结朴素贝叶斯的基本原理。

刚看过贝叶斯估计,朴素贝叶斯分类和贝叶斯估计虽然都是基于贝叶斯规则,但是还是有很(jian)大(dan)差(duo)别(le)的。
首先来看看贝叶斯定理:
这里写图片描述
朴素贝叶斯分类器可以看成是无参学习算法,因此,这里没有讲参数表示出来。依然是通过先验概率计算后验概率,只是先验不再是参数的先验分布,而是结果的先验概率。用于分类,则可以表示为:
这里写图片描述
上式可以转换为
这里写图片描述

要预测当前x现象下,结果Y为这里写图片描述的概率,那么,需要对已有的总体样本做统计计算出这里写图片描述,前者可直接统计到,后者则需要一些运算。
对于多维特征矩阵X来说:
这里写图片描述
贝叶斯的朴素在于,假设各维特征之间是相互独立的,这样,
这里写图片描述
将式(2)带入到式(1),那么我们需要找到各维特征的所有组合,然后计算每种组合在样本中的数量,其中有大量的判断,很麻烦。
将式(3)带入式(1),
这里写图片描述
上式就是朴素贝叶斯的基本公式。
只需要将各维特征的各特征值的条件概率计算出来就好了。
这样说,好像也看不出到底有多简化呢,那么举个例子看看吧。
用堵车来形容,假设堵车只由“路况”、“车流量”和“天气”这三维特征决定,这三维特征的取值如下表:
这里写图片描述
上表中,结果类型值为“堵车”(c1)、“通畅”(c2)两类。
假设上班前打开“某度地图”看了一下,发现你要经过的地方发生交通事故了,路上车流量一般,同时今天又下雨了,你想预估你上班路上是否会遇到堵车。
假设我们能拿到全国所有相同道路全年的路况、车流、天气情况,以及是否堵车的数据,由于数据量大,随机抽取N个样本(N足够大)为数据集,根据样本数据集,统计这样的同等道路下。
按照式(2)计算这里写图片描述的话,如果在训练过程中,计算各种情况下出现堵车和不堵车的概率,三维特征共有组合这里写图片描述,共有45种组合,也就是说要对N各样本遍历45次,而按照式(2)计算,只需要遍历11次,且遍历条件更简单。所以,朴素贝叶斯加入条件独立特性,简化了很多。但是,用朴素贝叶斯需要对特征工程中各维特征的相互独立性比较自信才行。
按照式(4)计算这个例子。假定统计结果如下:
堵车的样本数为a,通畅的样本数为(N-a),堵车的经验概率为a/N;
在堵车的样本中,统计到
这里写图片描述
不堵车情况按照同样的方式统计,那么
这里写图片描述
由于这是二分类,另一类的概率为这里写图片描述

作为分类器的话,将概率最大的一类作为预测类型。
对于所有的这里写图片描述,式(4)分母都是相同的,因此,似然函数为分子:
这里写图片描述
由于没有分母,计算出来的这里写图片描述可能都很小,各类型概率相加极有可能不等于1,这对分类没有影响,但是这里写图片描述也没有什么别的实际意义。

原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 结婚辞职怀孕感觉做错了怎么办 换新手机了钉钉怎么办 公众号申请链接无效怎么办 指纹打卡机时间调错已打卡怎么办 智慧云平台先锋讲座打不开怎么办 下雨穿套裙工装好冷怎么办 国家债务违约不要国际融资怎么办 欠钱的确还不起怎么办 生完孩孑后手发账握不死手怎么办 工作调动没啥消息怎么办 裁剪刀老是推歪怎么办 衣服上粘胶水了怎么办 衣服钻掉了有胶怎么办 衣服上贴纸掉了怎么办 裤子沾上502胶水怎么办 衣服上沾泡沫胶怎么办 衣服上面滴上502怎么办 502胶水弄衣服上怎么办 裤子上粘了胶怎么办 胶水滴在衣服上怎么办 衣服上有502胶水怎么办 衣服上面粘了胶怎么办 衣服上的胶干了怎么办 凌晨4点到火车站怎么办 运管罚款没钱交怎么办 郑州地铁票没买怎么办 遇到吸毒者拦路威胁要钱怎么办 开车遇见拦路要钱的怎么办 高速上有人拦车怎么办 马路上有人拦车怎么办 苹果手机下截软件要钱怎么办 孩子在学校问同学要钱怎么办 在学校被同学要钱怎么办 把人家店砸了要怎么办 外汇出金不到账怎么办 把罚款单弄丢了怎么办 在12306买不到下铺怎么办有 地铁票买反了怎么办 香港买错特惠票怎么办 到达迪拜t3 后怎么办 海藻面膜调多了怎么办