朴素贝叶斯文本分类算法

来源：互联网发布：intel集成显卡优化编辑：程序博客网时间：2024/04/28 08:10

朴素贝叶斯文本分类算法

摘要：常用的文本分类方法有支持向量机、K-近邻算法和朴素贝叶斯。其中朴素贝叶斯具有容易实现，运行速度快的特点，被广泛使用。本文详细介绍了朴素贝叶斯的基本原理，讨论了两种常见模型：多项式模型（MM）和伯努利模型（BM）。

关键字：朴素贝叶斯；文本分类

Abstract:Usually there are three methods for text classification: SVM、KNN and Naïve Bayes. Naïve Bayes is easy to implement and fast, so it is widely used. This article introduced the theory of Naïve Bayes and discussed two popular models: multinomial model(MM) and Bernoulli model(BM) in details, implemented runnable code and performed some data tests.

Keywords: naïve bayes; text classification

1贝叶斯原理

1.1贝叶斯公式

贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。

如上所示，其中P(A|B)是在B发生的情况下A发生的可能性。在贝叶斯定理中，每个名词都有约定俗成的名称：

P(A)是A的先验概率或边缘概率。之所以称为"先验"是因為它不考虑任何B方面的因素。

P(A|B)是已知B发生后A的条件概率（直白来讲，就是先有B而后=>才有A），也由于得自B的取值而被称作A的后验概率。

P(B|A)是已知A发生后B的条件概率（直白来讲，就是先有A而后=>才有B），也由于得自A的取值而被称作B的后验概率。

P(B)是B的先验概率或边缘概率，也作标准化常量。

按这些术语，Bayes定理可表述为：后验概率 = (相似度*先验概率)/标准化常量，也就是說，后验概率与先验概率和相似度的乘积成正比。另外，比例P(B|A)/P(B)也有时被称作标准相似度，Bayes定理可表述为：后验概率 = 标准相似度*先验概率。

1.2贝叶斯在分类中的应用

在分类问题中，常常需要把一个事物分到某个类别。一个事物具有很多属性，把它的众多属性看做一个向量，即x=(x1,x2,x3,…,xn)，用x这个向量来代表这个事物。类别也是有很多种，用集合Y={y1,y2,…ym}表示。如果x属于y1类别，就可以给x打上y1标签，意思是说x属于y1类别。这就是所谓的分类。

x的集合记为X，称为属性集。一般X和Y的关系是不确定的，你只能在某种程度上说x有多大可能性属于类y1，比如说x有80%的可能性属于类y1，这时可以把X和Y看做是随机变量，P(Y|X)称为Y的后验概率，与之相对的，P(Y)称为Y的先验概率。

在训练阶段，我们要根据从训练数据中收集的信息，对X和Y的每一种组合学习后验概率P(Y|X)。分类时，来了一个实例x，在刚才训练得到的一堆后验概率中找出所有的P(Y|x)，其中最大的那个y，即为x所属分类。根据贝叶斯公式，后验概率为

在比较不同Y值的后验概率时，分母P(X)总是常数，因此可以忽略。先验概率P(Y)可以通过计算训练集中属于每一个类的训练样本所占的比例容易地估计。

我们来举个简单的例子，让读者对上述思路有个形象的认识。

考虑一个医疗诊断问题，有两种可能的假设：（1）病人有癌症。（2）病人无癌症。样本数据来自某化验测试，它也有两种可能的结果：阳性和阴性。假设我们已经有先验知识：在所有人口中只有0.008的人患病。此外，化验测试对有病的患者有98%的可能返回阳性结果，对无病患者有97%的可能返回阴性结果。

上面的数据可以用以下概率式子表示：

P(cancer)=0.008,P(无cancer)=0.992

P(阳性|cancer)=0.98,P(阴性|cancer)=0.02

P(阳性|无cancer)=0.03，P(阴性|无cancer)=0.97

假设现在有一个新病人，化验测试返回阳性，是否将病人断定为有癌症呢？

在这里，Y={cancer，无cancer}，共两个类别，这个新病人是一个样本，他有一个属性阳性，可以令x=(阳性)。

我们可以来计算各个类别的后验概率：

P(cancer | 阳性) = P(阳性 | cancer)p(cancer)=0.98*0.008 = 0.0078

P(无cancer | 阳性) =P(阳性 | 无cancer)*p(无cancer)=0.03*0.992 = 0.0298

因此，应该判断为无癌症。

在这个例子中，类条件概率，P(cancer|阳性)和P(无cancer|阳性)直接告诉了我们。

一般地，对类条件概率P(X|Y)的估计，有朴素贝叶斯分类器和贝叶斯信念网络两种方法，这里介绍朴素贝叶斯分类器。

1.3朴素贝叶斯分类的原理与流程

朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础。

朴素贝叶斯分类的正式定义如下：

1、设为一个待分类项，而每个a为x的一个特征属性。

2、有类别集合。

3、计算。

4、如果，则。

那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做：

1、找到一个已知分类的待分类项集合，这个集合叫做训练样本集。

2、统计得到在各类别下各个特征属性的条件概率估计。即

3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：

因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：

根据上述分析，朴素贝叶斯分类的流程可以由下图表示（暂时不考虑验证）：

可以看到，整个朴素贝叶斯分类分为三个阶段：

第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。

2.朴素贝叶斯文本分类算法

2.1文本分类问题

在文本分类中，假设我们有一个文档d∈X，X是文档向量空间(document space)，和一个固定的类集合C={c1,c2,…,cj}，类别又称为标签。显然，文档向量空间是一个高维度空间。我们把一堆打了标签的文档集合<d,c>作为训练样本，<d,c>∈X×C。例如：

<d,c>={Beijing joins the World Trade Organization, China}

对于这个只有一句话的文档，我们把它归类到 China，即打上china标签。

我们期望用某种训练算法，训练出一个函数γ，能够将文档映射到某一个类别：

γ:X→C

这种类型的学习方法叫做有监督学习，因为事先有一个监督者（我们事先给出了一堆打好标签的文档）像个老师一样监督着整个学习过程。

朴素贝叶斯分类器是一种有监督学习，常见有两种模型，多项式模型(multinomial model)和伯努利模型(Bernoulli model)。

2.2多项式模型

2.2.1、基本原理

在多项式模型中，设某文档d=(t1,t2,…,tk)，tk是该文档中出现过的单词，允许重复，则先验概率P(c)= 类c下单词总数/整个训练样本的单词总数类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/(类c下单词总数+|V|)

V是训练样本的单词表（即抽取单词，单词出现多次，只算一个），|V|则表示训练样本包含多少种单词。在这里，m=|V|, p=1/|V|。P(tk|c)可以看作是单词tk在证明d属于类c上提供了多大的证据，而P(c)则可以认为是类别c在整体上占多大比例(有多大可能性)。

2.2.2、伪代码

//C，类别集合，D，用于训练的文本文件集合

TrainMultiNomialNB(C,D) {

// 单词出现多次，只算一个

V←ExtractVocabulary(D)

// 单词可重复计算

N←CountTokens(D)

for each c∈C

// 计算类别c下的单词总数

Nc←CountTokensInClass(D,c)

prior[c][/c]←Nc/N

// 将类别c下的文档连接成一个大字符串

textc←ConcatenateTextOfAllDocsInClass(D,c)

for each t∈V

// 计算类c下单词t的出现次数

Tct←CountTokensOfTerm(textc,t)

for each t∈V

//计算P(t|c)

condprob[t][c][/c]←

return V,prior,condprob

}

ApplyMultiNomialNB(C,V,prior,condprob,d) {

// 将文档d中的单词抽取出来，允许重复，如果单词是全新的，在全局单词表V中都

// 没出现过，则忽略掉

W←ExtractTokensFromDoc(V,d)

for each c∈C

score[c][/c]←prior[c][/c]

for each t∈W

if t∈Vd

score[c][/c] *= condprob[t][c][/c]

return max(score[c][/c])

}

2.2.3、举例

给定一组分类好了的文本训练数据，如下：

docId

doc

类别

In c=China?

Chinese Beijing Chinese

yes

Chinese Chinese Shanghai

yes

Chinese Macao

yes

Tokyo Japan Chinese

给定一个新样本Chinese Chinese Chinese Tokyo Japan，对其进行分类。

该文本用属性向量表示为d=(Chinese, Chinese, Chinese, Tokyo, Japan)，类别集合为Y={yes, no}。类yes下总共有8个单词，类no下总共有3个单词，训练样本单词总数为11，因此P(yes)=8/11, P(no)=3/11。类条件概率计算如下：

P(Chinese | yes)=(5+1)/(8+6)=6/14=3/7

P(Japan | yes)=P(Tokyo | yes)= (0+1)/(8+6)=1/14

P(Chinese|no)=(1+1)/(3+6)=2/9

P(Japan|no)=P(Tokyo| no) =(1+1)/(3+6)=2/9

分母中的8，是指yes类别下textc的长度，也即训练样本的单词总数，6是指训练样本有Chinese,Beijing,Shanghai, Macao, Tokyo, Japan 共6个单词，3是指no类下共有3个单词。

有了以上类条件概率，开始计算后验概率，

P(yes | d)=(3/7)3×1/14×1/14×8/11=108/184877≈0.00058417

P(no | d)= (2/9)3×2/9×2/9×3/11=32/216513≈0.00014780

因此，这个文档属于类别china。

2.3伯努利模型

2.3.1、基本原理

P(c)= 类c下文件总数/整个训练样本的文件总数

P(tk|c)=(类c下包含单词tk的文件数+1)/(类c下单词总数+2)

在这里，m=2, p=1/2。

后验概率的计算，也有点变化，见下面的伪代码。

2.3.2、伪代码

//C，类别集合，D，用于训练的文本文件集合

TrainBernoulliNB(C, D) {

// 单词出现多次，只算一个

V←ExtractVocabulary(D)

// 计算文件总数

N←CountDocs(D)

for each c∈C

// 计算类别c下的文件总数

Nc←CountDocsInClass(D,c)

prior[c][/c]←Nc/N

for each t∈V

// 计算类c下包含单词t的文件数

Nct←CountDocsInClassContainingTerm(D,c,t)

//计算P(t|c)

condprob[t][c][/c]←(Nct+1)/(Nct+2)

return V,prior,condprob

}

ApplyBernoulliNB(C,V,prior,condprob,d) {

// 将文档d中单词表抽取出来，如果单词是全新的，在全局单词表V中都没出现过，

// 则舍弃

Vd←ExtractTermsFromDoc(V,d)

for each c∈C

score[c][/c]←prior[c][/c]

for each t∈V

if t∈Vd

score[c][/c] *= condprob[t][c][/c]

else

score[c][/c] *= (1-condprob[t][c][/c])

return max(score[c][/c])

}

2.3.3、举例

还是使用前面例子中的数据，不过模型换成了使用伯努利模型。类yes下总共有3个文件，类no下有1个文件，训练样本文件总数为11，因此P(yes)=3/4,

P(Chinese | yes)=(3+1)/(3+2)=4/5

P(Japan | yes)=P(Tokyo | yes)=(0+1)/(3+2)=1/5

P(Beijing | yes)= P(Macao|yes)= P(Shanghai |yes)=(1+1)/(3+2)=2/5

P(Chinese|no)=(1+1)/(1+2)=2/3

P(Japan|no)=P(Tokyo| no) =(1+1)/(1+2)=2/3

P(Beijing| no)= P(Macao| no)= P(Shanghai | no)=(0+1)/(1+2)=1/3

有了以上类条件概率，开始计算后验概率，

=3/4×4/5×1/5×1/5×(1-2/5) ×(1-2/5)×(1-2/5)=81/15625≈0.005

P(no | d)= 1/4×2/3×2/3×2/3×(1-1/3)×(1-1/3)×(1-1/3)=16/729≈0.022

因此，这个文档不属于类别china。

2.4两个模型的区别

二者的计算粒度不一样，多项式模型以单词为粒度，伯努利模型以文件为粒度，因此二者的先验概率和类条件概率的计算方法都不同。

计算后验概率时，对于一个文档d，多项式模型中，只有在d中出现过的单词，才会参与后验概率计算，伯努利模型中，没有在d中出现，但是在全局单词表中出现的单词，也会参与计算，不过是作为“反方”参与的。

3.结语

文本分类是作为离散型数据的，以前糊涂是把连续型与离散型弄混一块了，朴素贝叶斯用于很多方面，数据就会有连续和离散的，连续型时可用正态分布，还可用区间，将数据的各属性分成几个区间段进行概率计算，测试时看其属性的值在哪个区间就用哪个条件概率。再有TF、TDIDF，这些只是描述事物属性时的不同计算方法，例如文本分类时，可以用单词在本文档中出现的次数描述一个文档，可以用出现还是没出现即0和1来描述，还可以用单词在本类文档中出现的次数与这个单词在剩余类出现的次数（降低此属性对某类的重要性）相结合来表述。

参考文献

[1] 洞庭散人，“基于朴素贝叶斯分类器的文本分类算法（上）”，“基于朴素贝叶斯分类器的文本分类算法（下）”，2008

[2]DavadDi，“基于朴素贝叶斯的文本分类算法”，2011

[3]T2噬菌体,”算法杂货铺——分类算法之朴素贝叶斯分类(Naive Bayesian classification)”,2010

[4]xiaofeng1982，“贝叶斯分类”，2012

0 0