机器学习-贝叶斯分类

来源：互联网发布：怦然心动百度云知乎编辑：程序博客网时间：2024/04/28 23:47

1、分类问题综述
对于分类问题，其实谁都不会陌生，说我们每个人每天都在执行分类操作一点都不夸张，只是我们没有意识到罢了；有一次出差，出差经常加班到深夜，打车回宾馆，刚上车，司机师傅说了句，哥几个是程序员吧，我们几个非常诧异，他是怎么看出来的，ps:当时感觉特别尴尬。这其中就涉及到了分类，司机师傅是按照自己的经验得出的结论，分类无非也是从训练样本中学习经验，然后根据训练出的模型进行分类。
从数学角度来说，分类问题可做如下定义：
已知集合：这里写图片描述
和，确定映射规则，使得任意x属于I有且仅有一个y属于C使y=f(x)成立。（不考虑模糊数学里的模糊集情况）
其中C叫做类别集合，其中每一个元素是一个类别，而I叫做项集合，其中每一个元素是一个待分类项，f叫做分类器。分类算法的任务就是构造分类器f。
这里要着重强调，分类问题往往采用经验性方法构造映射规则，即一般情况下的分类问题缺少足够的信息来构造100%正确的映射规则，而是通过对经验数据的学习从而实现一定概率意义上正确的分类，因此所训练出的分类器并不是一定能将每个待分类项准确映射到其分类，分类器的质量与分类器构造方法、待分类数据的特性以及训练样本数量等诸多因素有关
2、贝叶斯分类的基础——贝叶斯定理
每次提到贝叶斯定理，我心中的崇敬之情都油然而生，倒不是因为这个定理多高深，而是因为它特别有用。这个定理解决了现实生活里经常遇到的问题：已知某条件概率，如何得到两个事件交换后的概率，也就是在已知P(A|B)的情况下如何求得P(B|A)。这里先解释什么是条件概率：P(A|B)表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。其基本求解公式为：
这里写图片描述
贝叶斯定理之所以有用，是因为我们在生活中经常遇到这种情况：我们可以很容易直接得出P(A|B)，P(B|A)则很难直接得出，但我们更关心P(B|A)，贝叶斯定理就为我们打通从P(A|B)获得P(B|A)的道路。
下面不加证明地直接给出贝叶斯定理：
这里写图片描述
3、朴素贝叶斯分类
1）朴素贝叶斯分类的原理与流程
朴素贝叶斯分类是一种十分简单的分类算法，叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素，朴素贝叶斯的思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。通俗来说，就好比这么个道理，你在街上看到一个黑人，我问你你猜这哥们哪里来的，你十有八九猜非洲。为什么呢？因为黑人中非洲人的比率最高，当然人家也可能是美洲人或亚洲人，但在没有其它可用信息下，我们会选择条件概率最大的类别，这就是朴素贝叶斯的思想基础
朴素贝叶斯分类的正式定义如下：
1、设这里写图片描述为一个待分类项，而每个a为x的一个特征属性。
2、有类别集合。
3、计算。
4、如果，则x属于yk。
那么现在的关键就是如何计算第3步中的各个条件概率。我们可以这么做：
1、找到一个已知分类的待分类项集合，这个集合叫做训练样本集。
2、统计得到在各类别下各个特征属性的条件概率估计。即
这里写图片描述
3、如果各个特征属性是条件独立的，则根据贝叶斯定理有如下推导：
因为分母对于所有类别为常数，因为我们只要将分子最大化皆可。又因为各特征属性是条件独立的，所以有：

根据上述分析，朴素贝叶斯分类的流程可以由下图表示（暂时不考虑验证）：
这里写图片描述
可以看到，整个朴素贝叶斯分类分为三个阶段：
第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。
第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。
第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。
4、朴素贝叶斯分类模型
朴素贝叶斯分类器是一种有监督学习，常见模型有，多项式模型(multinomial model)和伯努利模型(Bernoulli model)、高斯模型。
1）高斯模型
有些特征可能是连续型变量，比如说人的身高，物体的长度，这些特征可以转换成离散型的值，比如如果身高在160cm以下，特征值为1；在160cm和170cm之间，特征值为2；在170cm之上，特征值为3。也可以这样转换，将身高转换为3个特征，分别是f1、f2、f3，如果身高是160cm以下，这三个特征的值分别是1、0、0，若身高在170cm之上，这三个特征的值分别是0、0、1。不过这些方式都不够细腻，高斯模型可以解决这个问题。高斯模型假设这些一个特征的所有属于某个类别的观测值符合高斯分布，也就是：
这里写图片描述

2）多项式模型
该模型常用于文本分类，特征是单词，值是单词的出现次数
这里写图片描述
其中，NykxiNykxi是类别ykyk下特征xixi出现的总次数；NykNyk是类别ykyk下所有特征出现的总次数。对应到文本分类里，如果单词word在一篇分类为label1的文档中出现了5次，那么Nlabel1,wordNlabel1,word的值会增加5。如果是去除了重复单词的，那么Nlabel1,wordNlabel1,word的值会增加1。nn是特征的数量，在文本分类中就是去重后的所有单词的数量。αα的取值范围是[0,1]，比较常见的是取值为1。
待预测样本中的特征xixi在训练时可能没有出现，如果没有出现，则NykxiNykxi值为0，如果直接拿来计算该样本属于某个分类的概率，结果都将是0。在分子中加入αα，在分母中加入αnαn可以解决这个问题。
3）伯努利模型

以上是贝叶斯的原理的简单介绍，其原理挺简单的，容易理解，spark-mllib中也有实现，但是只实现了其中的多项式和伯努利模型，后面我会讲解spark-mllib的实现和使用

0 0