读书笔记---Naive Bayes
来源:互联网 发布:excel2007去重复数据 编辑:程序博客网 时间:2024/06/03 09:51
读书笔记—Naive Bayes
依然是《统计学习方法》的读书笔记。
朴素贝叶斯是一种基于贝叶斯定理和特征之间条件独立(这是一个较强的条件)假设的分类模型。与KNN不同,它仅用于特征为标称型数据的分类(如果硬是要把连续型数据转换成离散作为特征。。也可以吧),是一个基于统计的概率模型。
1.模型描述
朴素贝叶斯有一个特征之间条件独立的假设,虽然这是一个较强的条件,但是在许多情况下都还是适用的。朴素贝叶斯的cost function用的是数据类别的后验概率,这个后验概率我们可以通过贝叶斯定理得到:
由于加了特征条件独立的假设,
这个模型一定程度上可以说是模型数据生成的过程(不过通过特征条件独立假设大大简化了生成的过程),因此被称之为生成模型(generative model)。
为了应用这个模型,我们要从训练集中得到的信息(即训练过程)是
因此,得到了cost function,也就是后验概率分布后(这是一个离散分布),我们从直觉的角度想就是要最大化这个后验概率分布,即:
这样我们就估计出了特征为
从形式上看直接从似然函数
2.模型优化
(1)计算优化
在实际应用中,我们统计得到概率
使用log值有一下两个优点:
1) log是单调增函数,不会改变原函数的单调性。当概率过小的时候,使用log值可以防止由于小数太小造成的计算机数据下溢问题(太接近0,被截断)。
2) 使用log将乘法转换成加法,可以提高计算机运行效率。
(2)数据平滑
当我们用极大似然估计得到概率值时,若出现了0概率,不论计算log还是直接计算后验概率,都会出现问题。比如
平滑的本质是在数据中加入一些伪计数(pseudo count),使统计时那些为0的项变成一个相对较小的非0项,但又保证整体概率分布基本不变。最常见的是在每个统计项上加入一个常数值,比如对于似然值:
其中
另外,对于先验
0 0
- 读书笔记---Naive Bayes
- Naive Bayes
- naive bayes
- Naive Bayes
- Naive Bayes
- Naive Bayes
- Naive Bayes
- Naive Bayes
- Naive Bayes
- Naive Bayes
- Naive Bayes Classifier
- naive Bayes classifier
- Naive Bayes classifier
- weka: naive bayes
- 如何理解naive Bayes
- weka:Naive Bayes Classifier
- Naive Bayes Model
- Naive Bayes分类示例
- 【Git】.gitignore文件的说明。
- mybatis的oracle数据库操作
- 一种基于UDP协议实现P2P智能穿越NAT的方案
- Ubuntu 常见问题汇总
- 操作系统调度算法
- 读书笔记---Naive Bayes
- 并查集
- markdown语法
- Android ORM框架介绍之OrmLite注解与封装
- python 学习(二十一)之文件I/O
- 正方形图片切成圆形
- Python 学习笔记(四):常用内建模块和第三方模块
- linux 下调用Java AWT抛出java.awt.HeadlessException异常解决办法
- QQ靠TCP还是UDP?