朴素贝叶斯

来源:互联网 发布:Sql中not in的效率 编辑:程序博客网 时间:2024/04/30 07:19


(1)模型

朴素贝叶斯法通过训练数据集学习联合分布概率.具体地,学习以下先验概率分布及条件概率分布。先验概率分布


条件概率分布


于是学习到联合分布概率.

       条件概率分布有指数级数量的参数,其估计实际是不可行的。事实上,假设可取值有个,j=1,2,,…,n,Y可取值有K个,那么参数的个数为(指数灾难)。

于是朴素贝叶斯对条件概率分布做了条件独立性的假设。由于这是一个比较强的假设,朴素贝叶斯也因此得名。具体地,条件独立性假设是


简单地说就是假设x在第j维的取值与在其他维度的取值无关。

朴素贝叶斯法实际上学习到的是生成数据的机制,所以属于生成模型。条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。这一假设使得朴素贝叶斯法变得简单,解决了指数灾难问题,但同时会牺牲一定的分类准确度。

朴素贝叶斯法分类时,对给定的输入x,通过学习到的模型计算后验概率分布,将后验概率最大的类作为x的类输出。后验概率计算根据贝叶斯定理进行:


将(3)带入(4)有:


这是朴素贝叶斯分类的基本公式。于是,朴素贝叶斯分类器可表示为


由于(6)中分母对所有都是相同的,所以


(2)策略

       朴素贝叶斯法将实例分到后验概率最大的类中。这等价于期望风险最小化。假设选择0-1损失函数:


式中是分类决策函数。这时,期望风险函数为


期望是对联合分布取的。由此取条件期望



为了使期望风险最小化,只需要对X=x逐个极小化,由此得到:





即朴素贝叶斯所采用的原理。

(3)优缺点

优点:

(1)朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。

(2)NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。

缺点:

(1)理论上,NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此,这是因为NBC模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的(可以考虑用聚类算法先将相关性较大的属性聚类),这给NBC模型的正确分类带来了一定影响。在属性个数比较多或者属性之间相关性较大时,NBC模型的分类效率比不上决策树模型。而在属性相关性较小时,NBC模型的性能最为良好。

(2)需要知道先验概率。

(3)分类决策存在错误率

0 0
原创粉丝点击