朴素贝叶斯分类
来源:互联网 发布:开博尔网络机顶盒价格 编辑:程序博客网 时间:2024/06/05 18:15
朴素贝叶斯
朴素贝叶斯分类算法是基于两种假设的一种分类算法:
- 每一个特征同样重要
- 每一个特征之间相互独立
贝叶斯定理
证明:
条件概率公式
同理
联立可以得到
贝叶斯策略理论
设
- 若
P1(x)>P2(x) ,那么属于类别一 - 若
P1(x)<P2(x) ,那么属于类别二
但是贝叶斯决策论真正进行比较的是
- 若
P(c1|x)>P(c2|x) ,那么属于类别c1 - 若
P(c1|x)<P(c2|x) ,那么属于类别c2
贝叶斯分类流程
基于之前的理论我们正式定义一下朴素贝叶斯分类的流程:
设:
x={a1,a2,...am} 为一个待分类项,ai 为其特征属性,一共有m 个C={y1,y2,...,yn} 表示类别的集合- 计算
P(y1|x),P(y2|x),...,P(yn|x) - 若
P(yk|x)=max{P(y1|x),P(y2|x),...,P(yn|x)} ,则x∈yk
贝叶斯分类的关键在于求出
我们分别计算:
基于贝叶斯定理我们可以得到
分母对于所有类别来说可以看成一个常数,因此我们只需考虑分子,基于先前的假设,所有特征独立可以得到
合并可以得到:
数据处理
若属性的取值为离散值我们很容易计算,就直接统计出训练样本中各个属性在每个样本中出现的频率就可以计算出
假定其值满足高斯分布:
这样我们只用计算出训练样本中类别
在实践中我们常通过取对数的方式来将连乘转化为连加,以避免数值的下溢。
需要注意的是若某个属性值在训练集中没有与某个类同时出现过,则计算出来的概率值为0,则会将其他属性携带的信息给抹去,因此我们需要用到“拉普拉斯修正”,来进行平滑。
设
总结
优点:在数据较少的情况下仍然有效,可以处理多类别问题
缺点:对于输入数据的准备方式较为敏感
适用数据类型:标称型数据
1 0
- 朴素贝叶斯分类
- 朴素贝叶斯分类
- 朴素贝叶斯分类器
- 朴素贝叶斯分类
- 朴素贝叶斯分类器
- 朴素贝叶斯分类
- 朴素贝叶斯分类器
- 朴素贝叶斯分类
- 朴素贝叶斯--情感分类
- 朴素贝叶斯分类器
- 朴素贝叶斯—分类
- 朴素贝叶斯分类器
- 朴素贝叶斯分类
- 朴素贝叶斯分类
- 分类-朴素的贝叶斯
- 朴素贝叶斯分类器
- 朴素贝叶斯分类器
- 朴素贝叶斯分类器
- Spring 控制反转
- BestCoder Round#77
- 机器学习实战中遇到的python问题
- POJ 2528
- hdu4786
- 朴素贝叶斯分类
- 如何在gns3上用路由器模拟PC机和交换机
- mybatis注解
- 三个最简单的排序算法:插入、冒泡、选择
- 第5周项目1—三角形类雏形(3、构造函数)
- 博客是什么东西?写这个有什么要求么?
- poj 3666 Making the Grade 动态规划+滚动数组
- Android基于HttpURLConnection的异步下载图片
- hi3516a的uboot自动升级相关问题的解决