朴素贝叶斯分类
来源:互联网 发布:软件开放平台 编辑:程序博客网 时间:2024/06/12 11:19
背景
我们先举一个例子,关于向天上抛硬币的实验,有一个训练集
{h,t,x,t,t,t,t} 。那么我们通过这个训练集预测下一个抛的结果就应该是t,因为P(t)=57 是最大的。
我们再举一个例子,现在有两种假设
1. 老师被外星人绑架了 —P(1)=0.00...01
2. 老师沉迷科研,忘了时间 —P(2)=0.99...99
现在老师上课迟到了,那么是什么原因呢?
1. P(late|1) = 1
2. P(late|2) = 0.15
如果仅仅从概率上来看,必然是因为假设1,因为其概率最大。
明显的,两个例子得出这样的结论是有问题的。因此我们不能仅仅考虑最简单的概率问题。
朴素贝叶斯就是一种正确地使用概率的方法。
朴素贝叶斯(Naive Bayes)是一种简单的分类算法,它的经典应用案例为人所熟知:文本分类(如垃圾邮件过滤)。很多教材都从这些案例出发,本文就不重复这些内容了,而把重点放在理论推导,三种常用模型及其编码实现。
1 理论基础
朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法。
这里提到的贝叶斯定理、特征条件独立假设就是朴素贝叶斯的两个重要的理论基础。
1.1 贝叶斯定理
贝叶斯定理便是基于条件概率,通过
顺便提一下,上式中的分母
其中
如果像背景中举的两个例子那样只依靠likelihood去进行判断,这种方式叫做Maximum Likelihood(ML);而朴素贝叶斯则是通过Maximum a-posterior(MAP)。
1.2 特征条件独立假设
这一部分开始朴素贝叶斯的理论推导,从中你会深刻地理解什么是特征条件独立假设。
给定训练数据集
如果现在来了一个新样本
那么问题就转化为求解
那
分子中的
分母
而条件概率
这显然不可行。针对这个问题,朴素贝叶斯算法对条件概率分布作出了独立性的假设,通俗地讲就是说假设各个维度的特征
这样,参数规模就降到
将【公式2】代入【公式1】得到:
于是朴素贝叶斯分类器可表示为:
因为对所有的
关于
2. 三种常见的模型及编程实现
2.1 多项式模型
当特征是离散的时候,使用多项式模型。
当某一维特征的值
平滑的具体公式为:
N是样本总数,k是类别总数,
Nyk 是类别为yk 的样本个数,α 是平滑值。
Nyk 是类别为yk 的样本个数,n是特征的维数,Nyk,xi 是类别为yk 的样本中,第i维特征的值是xi 的样本个数,α 是平滑值。
当
2.1.1 举例
有如下训练数据,15个样本,2维特征
解答如下:
运用多项式模型,令
- 计算先验概率
- 计算各种条件概率
- 对于给定的
x=(2,S)T ,计算:
由此可以判定y=-1。
2.1.2 编程实现(基于Python,Numpy)
从上面的实例可以看到,当给定训练集时,我们无非就是先计算出所有的先验概率和条件概率,然后把它们存起来。
当来一个测试样本时,我们就计算它所有可能的后验概率,最大的那个对应的就是测试样本的类别,而后验概率的计算无非就是在查找表里查找需要的值。
定义一个MultinomialNB类,它有两个主要的方法:fit(X,y)和predict(X)。fit方法其实就是训练,调用fit方法时,做的工作就是构建查找表。predict方法就是预测,调用predict方法时,做的工作就是求解所有后验概率并找出最大的那个。此外,类的构造函数__init__()中,允许设定
# -*- coding: utf-8 -*-# @Author: Haonan Wu# @Date: 2017-09-03 20:04:13# @Last Modified by: Haonan Wu# @Last Modified time: 2017-09-20 21:50:03import numpy as npclass MultinomialNB(object): ''' Naive Bayes classifier for multinomial models The multinomial Naive Bayes classifier is suitable for classification with discrete features ''' def __init__(self, alpha = 1.0, fit_prior = True, class_prior = None): ''' alpha : float, optional (default=1.0) Setting alpha = 0 for no smoothing fit_prior : boolean Whether to learn class prior probabilities or not. If false, a uniform prior will be used. class_prior : array-like, size (n_classes,) Prior probabilities of the classes. If specified the priors are not adjusted according to the data. ''' self.alpha = alpha self.fit_prior = fit_prior self.class_prior = class_prior self.classes = None self.conditional_prob = None def _calculate_feature_prob(self, feature): values = np.unique(feature) total_num = float(len(feature)) value_prob = {} denominator = total_num + len(values)*self.alpha; for v in values: value_prob[v] = (np.sum(np.equal(feature, v)) + self.alpha)/denominator return value_prob def fit(self, X, y): ''' X and y are array-like, represent features and labels. call fit() method to train Naive Bayes classifier. ''' #TODO: check X,y self.classes = np.unique(y) #calculate class prior probabilities: P(y=ck) if self.class_prior == None: class_num = len(self.classes) if not self.fit_prior: self.class_prior = [1.0/num for _ in range(class_num)] else: self.class_prior = [] sample_num = float(len(y)) denominator = sample_num + class_num*self.alpha for c in self.classes: c_num = np.sum(np.equal(y,c)) self.class_prior.append((c_num+self.alpha)/denominator) #calculate Conditional Probability: P( xj | y=ck ) self.conditional_prob = {} # like { c0:{ x0:{ value0:0.2, value1:0.8 }, x1:{} }, c1:{...} } for c in self.classes: self.conditional_prob[c] = {} for i in range(len(X[0])): # for each feature feature = X[np.equal(y,c)][:,i] self.conditional_prob[c][i] = self._calculate_feature_prob(feature) return self #given values_prob {value0:0.2,value1:0.1,value3:0.3,.. } and target_value #return the probability of target_value def _get_xj_prob(self, values_prob, target_value): return values_prob[target_value] #predict a single sample based on (class_prior,conditional_prob) def _predict_single_sample(self, x): label = -1 max_posterior_prob = 0 #for each category, calculate its posterior probability: class_prior * conditional_prob for c_index in range(len(self.classes)): current_class_prior = self.class_prior[c_index] current_conditional_prob = 1.0 feature_prob = self.conditional_prob[self.classes[c_index]] j = 0 for feature_i in feature_prob.keys(): current_conditional_prob *= self._get_xj_prob(feature_prob[feature_i],x[j]) j += 1 #compare posterior probability and update max_posterior_prob, label if current_class_prior * current_conditional_prob > max_posterior_prob: max_posterior_prob = current_class_prior * current_conditional_prob label = self.classes[c_index] return label #predict samples (also single sample) def predict(self,X): #TODO1:check and raise NoFitError #ToDO2:check X if X.ndim == 1: return self._predict_single_sample(X) else: #classify each sample labels = [] for i in range(X.shape[0]): label = self._predict_single_sample(X[i]) labels.append(label) return labelsif __name__ == '__main__': X = np.array([ [1,1,1,1,1,2,2,2,2,2,3,3,3,3,3], [4,5,5,4,4,4,5,5,6,6,6,5,5,6,6] ]) X = X.T y = np.array([-1,-1,1,1,-1,-1,-1,1,1,1,1,1,1,1,-1]) nb = MultinomialNB(alpha = 1.0, fit_prior = True) nb.fit(X,y) print(nb.predict(np.array([2,4]))) # 输出-1
2.2 高斯模型
当特征是连续变量的时候,运用多项式模型就会导致很多
2.2.1 例子
性别分类的例子
来自维基
下面是一组人类身体特征的统计资料。
已知某人身高6英尺、体重130磅,脚掌8英寸,请问该人是男是女?
根据朴素贝叶斯分类器,计算下面这个式子的值。
P(身高|性别) x P(体重|性别) x P(脚掌|性别) x P(性别)
这里的困难在于,由于身高、体重、脚掌都是连续变量,不能采用离散变量的方法计算概率。而且由于样本太少,所以也无法分成区间计算。怎么办?
这时,可以假设男性和女性的身高、体重、脚掌都是正态分布,通过样本计算出均值和方差,也就是得到正态分布的密度函数。有了密度函数,就可以把值代入,算出某一点的密度函数的值。
比如,男性的身高是均值5.855、方差0.035的正态分布。所以,男性的身高为6英尺的概率的相对值等于1.5789(大于1并没有关系,因为这里是密度函数的值,只用来反映各个值的相对可能性)。
对于脚掌和体重同样可以计算其均值与方差。有了这些数据以后,就可以计算性别的分类了。
P(身高=6|男) x P(体重=130|男) x P(脚掌=8|男) x P(男) = 6.1984 x e-9 P(身高=6|女) x P(体重=130|女) x P(脚掌=8|女) x P(女) = 5.3778 x e-4
可以看到,女性的概率比男性要高出将近10000倍,所以判断该人为女性。
总结
高斯模型假设每一维特征都服从高斯分布(正态分布):
2.2.2 编程实现
高斯模型与多项式模型唯一不同的地方就在于计算
#GaussianNB differ from MultinomialNB in these two method:# _calculate_feature_prob, _get_xj_probclass GaussianNB(MultinomialNB): """ GaussianNB inherit from MultinomialNB,so it has self.alpha and self.fit() use alpha to calculate class_prior However,GaussianNB should calculate class_prior without alpha. Anyway,it make no big different """ #calculate mean(mu) and standard deviation(sigma) of the given feature def _calculate_feature_prob(self,feature): mu = np.mean(feature) sigma = np.std(feature) return (mu,sigma) #the probability density for the Gaussian distribution def _prob_gaussian(self,mu,sigma,x): return ( 1.0/(sigma * np.sqrt(2 * np.pi)) * np.exp( - (x - mu)**2 / (2 * sigma**2)) ) #given mu and sigma , return Gaussian distribution probability for target_value def _get_xj_prob(self,mu_sigma,target_value): return self._prob_gaussian(mu_sigma[0],mu_sigma[1],target_value)
2.3 伯努利模型
与多项式模型一样,伯努利模型适用于离散特征的情况,所不同的是,伯努利模型中每个特征的取值只能是1和0(以文本分类为例,某个单词在文档中出现过,则其特征值为1,否则为0).
伯努利模型中,条件概率
当特征值
当特征值
2.3.1 编程实现
伯努利模型和多项式模型是一致的,BernoulliNB需要比MultinomialNB多定义一个二值化的方法,该方法会接受一个阈值并将输入的特征二值化(1,0)。当然也可以直接采用MultinomialNB,但需要预先将输入的特征二值化。写到这里不想写了,编程实现留给读者吧。
3 参考文献
- 维基百科Sex classification
- 朴素贝叶斯的三个常用模型:高斯、多项式、伯努利
- 朴素贝叶斯分类器的应用
- 数学之美番外篇:平凡而又神奇的贝叶斯方法
- scikit-learn学习之贝叶斯分类算法
- 朴素贝叶斯分类
- 朴素贝叶斯分类
- 朴素贝叶斯分类
- 朴素贝叶斯分类器
- 朴素贝叶斯分类
- 朴素贝叶斯分类器
- 朴素贝叶斯分类
- 朴素贝叶斯分类器
- 朴素贝叶斯分类
- 朴素贝叶斯--情感分类
- 朴素贝叶斯分类器
- 朴素贝叶斯—分类
- 朴素贝叶斯分类器
- 朴素贝叶斯分类
- 朴素贝叶斯分类
- 分类-朴素的贝叶斯
- 朴素贝叶斯分类器
- 朴素贝叶斯分类器
- 朴素贝叶斯分类器
- ORACLE package包中的存储过程的定义和使用
- 第四周项目三(2)—两个链表的拼接
- 数据结构上机实践第三周项目4(2)—顺序表应用
- springboot 集成dubbo
- 使用 lombok 简化 Java 代码
- 朴素贝叶斯分类
- 第4周实践项目1 建立单链表(非多组织结构)
- Spring之Bean总结(一)
- 适配ioiOS11
- LCD小小总结
- AS3聊天多行输入框图文混排完美实现
- PHP在使用PHPExcel组件导出xls文件乱码的解决
- char* 指向内容不能修改的问题(整理)
- Bootstrap-frame