贝叶斯分类分类算法

来源:互联网 发布:网络拓扑自动发现 编辑:程序博客网 时间:2024/05/16 02:05
•朴素贝叶斯分类的工作过程如下:
(1) 每个数据样本用一个n维特征向量X= {x1x2……xn}表示,分别描述对n个属性A1A2……An样本的n个度量。
•(2) 假定有m个类C1,C2,…,Cm,给定一个未知的数据样本X(即没有类标号),分类器将预测X属于具有最高后验概率(条件X下)的类。也就是说,朴素贝叶斯分类将未知的样本分配给类Ci(1≤im)当且仅当P(Ci|X)>P(Cj|X),对任意的j=1,2,…,mji。这样,最大化P(Ci|X)。其P(Ci|X)最大的类Ci称为最大后验假定。根据贝叶斯定理

(3) 由于P(X)对于所有类为常数,只需要P(X|Ci)*P(Ci)最大即可。如果Ci类的先验概率未知,则通常假定这些类是等概率的,即P(C1)=P(C2)==P(Cm),因此问题就转换为对P(X|Ci)的最大化(P(X|Ci)常被称为给定Ci时数据X的似然度,而使P(X|Ci)最大的假设Ci称为最大似然假设)
否则,需要最大化P(X|Ci)*P(Ci)。注意,类的先验概率可以用P(Ci)=si/s计算,其中si是类Ci中的训练样本数,而s是训练样本总数。
(4) 给定具有许多属性的数据集,计算P(X|Ci)的开销可能非常大。为降低计算P(X|Ci)的开销,可以做类条件独立的朴素假定。
给定样本的类标号,假定属性值相互条件独立,即在属性间,不存在依赖关系。这样
联合概率分布
(5) 对未知样本X分类,也就是对每个类Ci,计算P(X|Ci)*P(Ci)
样本X被指派到类Ci,当且仅当P(Ci|X)> P(Cj|X)1jmji,换言之,X被指派到其P(X|Ci)*P(Ci)最大的类
贝叶斯分类


全概率公式



贝叶斯公式



•Bayes公式,其意义是:假设导致事件A发生的“原因”有Bi(i=1,2,…,n)个。它们互不相容。
•现已知事件A确已经发生了,若要估计它是由“原因”Bi所导致的概率,则可用Bayes公式求出.即可从结果分析原因.




Bayesian Classifiers
•Approach:
–compute the posterior probability P(C | A1, A2, …, An) for all values of C using the Bayes theorem
–Choose value of C that maximizes
P(C | A1, A2, …, An)
–Equivalent to choosing value of C that maximizes
     P(A1, A2, …, An|C) P(C)
How to estimate P(A1, A2, …, An| C )?


Naïve Bayes Classifier

•Assume independence among attributes Ai when class is given:   
–P(A1, A2, …, An |C) = P(A1| Cj) P(A2| Cj)… P(An| Cj)
 0
–Can estimate P(Ai| Cj) for all Ai and Cj.
–New point is classified to Cj if  P(Cj) P P(Ai| Cj)  is maximal.





原创粉丝点击