朴素贝叶斯分类器:R语言实现
来源:互联网 发布:c语言高级 编辑:程序博客网 时间:2024/05/16 07:47
<span style="font-family: 'Helvetica Neue', Helvetica, Arial, sans-serif; background-color: rgb(255, 255, 255);"></span>
<span style="font-family: 'Helvetica Neue', Helvetica, Arial, sans-serif; background-color: rgb(255, 255, 255);">1、引子</span>
朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法,其中朴素的意思实际上指的是一个假设条件,后面在举例中说明。本人以为,纯粹的数学推导固然有其严密性、逻辑性的特点,但对我等非数学专业的人来说,对每一推导步骤的并非能透彻理解,我将从一个例子入手,类似于应用题的方式,解释朴素贝叶斯分类器,希望能对公式的理解增加形象化的场景。
2、实例
最近“小苹果”很火,我们就以苹果来举例说,假设可以用三个特征来描述一个苹果,分别为“尺寸”、“重量”和“颜色”;其中“尺寸”的取值为小、大,“重量”的取值为轻、重,“颜色”取值为红、绿。对这三个特征描述的苹果中,对苹果的按味道进行分类,可取的值为good、bad。
朴素贝叶斯分类器就要要解决如下一个问题,已知苹果味道取good和bad的概率,那么如果给定一个一组苹果的特征,那么这个苹果味道取good和bad的概率是多少?这是个典型的逆概率的问题。
尺寸(size) 大 小 大 大 小 小
重量(weight) 轻 重 轻 轻 重 轻
颜色(color) 红 红 红 绿 红 绿
味道(taste) good good bad bad bad good
以上给出了6个苹果的特征描述及其口味,那个一个大而重的红苹果,能否估计出它的味道是good还是bad?
这里我们先解释下朴素的含义,朴素就是这样一个假设:描述苹果的三个特征是相互独立的。这个假设会对后面的计算带来极大的方便。但是肯定有人会想,对这个例子来说,这个假设就不成立嘛,大小和重量从直觉上我们都会感到是两个正相关的特征。是的,朴素的假设在实际世界中是较难满足的,但是实际使用中,基于这个假设作出预测的正确率是在一个可接受的范围。
3、基本方法
P(A∣B) 表示在确定B的情况下,事件A发生的概率,而在实际情况中,我们或许更关心P(B∣A)但是只能直接获得P(A∣B) ,此时我们需要一个工具可以把P(A∣B) 和P(B∣A)相互转化, 贝叶斯定理就是这样一个公式,下面给出贝叶斯定理:
对苹果分类的问题,有三个特征F = {f1, f2, f3},两种分类C = {c1, c2},根据贝叶斯公式有给定特征条件下,特征为ci的概率
使得上式取得最大值的ci即为分类结果,由于对给定训练集来说,P(f1f2f3)为常数,那么就转为为求
P(f1f2f3∣ci)P(ci)
的最大值。
朴素贝叶斯的假设在这里就体现了,由于特征值相互独立,那么上式可以转化为
P(f1∣ci)P(f2∣ci)P(f3∣ci)P(ci)
整个问题就变为求使得上式取最大值的ci,而上式中的每一项都可以从训练集中得到。
最后讨论下Laplace校准,如果某一个特性值在训练集中出现的次数为0,那么以上我们讨论的公式就没有意义了,以为对所有的类型结果都是0。当然对训练集进行选择可以避免这种情况,但是如果避免不了就需要进行Laplace校准。其实很简单,把所有出现特征出现的次数都加上1,即为Laplace校准。
4、R语言实现
</pre><pre name="code" class="plain">
# Naive Bayeslibrary(plyr)library(reshape2)#1、根据训练集创建朴素贝叶斯分类器#1.1、生成类别的概率## 计算训练集合D中类别出现的概率,即P{c_i}## 输入:trainData 训练集,为数据框## strClassName 指明训练集中名称为strClassName列为分类结果## 输出:数据框,P{c_i}的集合,类别名称|概率(列名为prob)class_prob <- function(trainData, strClassName){ #训练集样本数 length.train <- nrow(trainData) dTemp <- ddply(trainData, strClassName, "nrow") #ddply用于对trainData进行分组统计 #统计taste的频数 dTemp <- ddply(dTemp, strClassName, mutate, prob = nrow/length.train) #继上一步计算频率 dTemp[,-2]}##1.2、生成每个类别下,特征取不同值的概率## 计算训练集合D中,生成每个类别下,特征取不同值的概率,即P{fi_ci}##输入:trainData训练集,为数据框## strClassName指明训练集中名称为strClassName列为分类的结果,其余的全部列认为是特征值##输出:数据框,P{fi_ci}的集合,类别名称|特征名称|特征取值|概率(列名为prob)feature_class_prob <- function(trainData, strClassName){ #横表转成纵表 data.melt <- melt(trainData, id = c(strClassName)) #统计频数 aa <- ddply(data.melt, c(strClassName, "variable", "value"), "nrow") #计算每一种特征对应的分类的频数 bb <- ddply(aa, c(strClassName, "variable"), mutate, sum = sum(nrow), prob = nrow/sum) #增加列名 colnames(bb) <- c("class.name", "feature.name", "feature.value", "feature.nrow", "feature.sum", "prob") # 返回结果 bb[, c(1,2,3,6)]}#feature_class_prob(iris, "Species")#以上创建了朴素贝叶斯分类器##使用生成的朴素贝叶斯分类器进行预测##使用生成的朴素贝叶斯进行预测P{fi_ci}##输入:oneObs数据框,待预测样本,格式为特征名称|特征值## pc数据框,训练集合下,特征取不同值的概率,P{c_i} 类别名称|概率## pfc数据框,每个类别下,特征值去不同值的概率,即P{fi_ci}pre_class <- function(oneObs, pc, pfc){ colnames(oneObs) <- c("feature.name", "feature.value") colnames(pc) <-c("class.name", "prob") colnames(pfc) <- c("class.name", "feature.name", "feature.value", "prob") #取出特征的取值的条件概率 feature.all <- join(oneObs, pfc, by = c("feature.name", "feature.value"), type="inner") #取出特征取值的条件概率的连乘 feature.prob <- ddply(feature.all, .(class.name), summarize, prob_fea = prod(prob)) #prod是连乘函数 #取出类别的概率 class.all <- join(feature.prob, pc, by = "class.name", type = "inner") #输出结果 ddply(class.all, .(class.name), mutate, pre_prob = prob_fea * prob)[,c(1,4)]}##3、数据测试#训练集train.apple <- data.frame( size = c("大", "小", "大", "大", "小", "小"), weight = c("轻", "重", "轻", "轻", "重", "轻"), color = c("红", "红", "红", "绿", "红", "绿"), taste = c("good", "good", "bad", "bad", "bad", "good") )#测试集oneObs <- data.frame( feature.name = c("size","weight","color"), feature.value = c("大","重","红") )#预测测试集pc <- class_prob(train.apple, "taste")pfc <- feature_class_prob(train.apple,"taste")pre_class(oneObs, pc, pfc)
结果为
class.name pre_prob
1 bad 0.07407407
2 good 0.03703704
可见该苹果的口味为bad
5、朴素贝叶斯分类小结
1、属于有监督的学习(有训练集);
2、主要处理离散类型的数据,如果为连续数据可先进行离散化;
3、训练集的特征取值要尽量完备,如果有缺失需进行预处理(Laplace校准);
4、关于特征值相互独立的假设,在实际问题中一般无法满足,但基于此假设做的预测是可以接受的。
关于其他的朴素贝叶斯介绍可见:
http://www.ruanyifeng.com/blog/2013/12/naive_bayes_classifier.html
http://www.cnblogs.com/leoo2sk/archive/2010/09/17/1829190.html
另外,朴素贝叶斯的课程还可阅读:Andrew Ng机器学习笔记(五)——生成学习算法和朴素贝叶斯算法
- 朴素贝叶斯分类器:R语言实现
- 朴素贝叶斯分类算法的R语言实现
- 机器学习算法的R语言实现(三):朴素贝叶斯分类器
- R语言使用朴素贝叶斯分类算法
- 朴素贝叶斯分类--R语言应用
- R 朴素贝叶斯 垃圾邮件分类
- R语言分类算法之朴素贝叶斯分类(Naive Bayesian Classification)
- 机器学习与R之朴素贝叶斯分类器
- 朴素贝叶斯分类器 C++ STL 实现
- 朴素贝叶斯分类器:MATLAB工具箱实现
- Python实现朴素贝叶斯分类器
- python实现一个朴素贝叶斯分类器
- 朴素贝叶斯分类器的python实现
- Java实现朴素贝叶斯分类器
- 朴素贝叶斯分类器及Python实现
- 朴素贝叶斯分类器(Python实现)
- 使用R完成朴素贝叶斯分类
- R 实现朴素贝叶斯算法
- JAVA笔记:深入研究Java中的反射机制
- AlertDialog的使用
- Failed to fetch URL https://dl-ssl.google.com/android/repository/repository-10.xml, reason: HttpHost
- 开源工具类整理
- Android Volley完全解析(一),初识Volley的基本用法
- 朴素贝叶斯分类器:R语言实现
- SDK、JDK、JRE、JVM、JDT、CDT等之间的区别与联系
- Objective-c自学笔记(1)-类
- Mou中的代码高亮方法
- (转)duilib list扩展 修正bug
- fork函数详解
- hbase安装及配置
- Win7无法使用VPN的解决办法
- HDU 1063 -- Exponentiation(Java)