机器学习实战——第四章:朴素贝叶斯
来源:互联网 发布:linux安卓 编辑:程序博客网 时间:2024/06/10 03:14
本系列目的在于总结每一个分类器的特点(优点、缺点、使用数据类型、使用时的注意事项等)。相关代码自己搜。
python:建议使用2.7
python常用函数库:NumPy、scikit-learn等
python集成环境:anaconda
优点:
1、可以处理多元分类问题
2、对异常值不敏感
3、训练数据较少也比较有效
4、简单高效
缺点:
1、文本分类,对于其他的特征数量较少的训练数据集,不宜使用NB
2、NB的两个假设:条件独立假设、每个特征的权重一样(同等重要)假设,往往不成立。(但效果还不错....)
使用数据类型:
1、连续型(先做离散化处理)
2、离散型
使用时注意事项:
0、注意计算过程中两个易错点:
分子有一项为零,造成整个概率为零:使用Laplace smooth
分子的每一项都很小,造成连乘的结果趋于0,甚至下溢出错:使用 log(x*y) = log(x) + log(y)
1、最常用的场景:文本分类,对于其他的特征数量较少的训练数据集,不宜使用NB
2、特征数量较多时,可以观察特征的直方图分布分析特征之间的关系
3、深刻理解NB的两个假设:条件独立假设、每个特征的权重一样(同等重要)假设
4、注意set-of-words model和bag-of-words model的区别(词袋模型一般较优):
每个word取值的区别
计算条件概率(模型参数)的区别
5、理解NB的两种实现方式(伯努利模型实现、多项式模型实现)在产生文章词汇过程中的区别
6、如何根据NB训练得到的模型解释数据集的内在知识(其实发现数据的内在知识才是我们希望做的):
1)在预测集上表现不错,说明训练得到的模型还不错
2)那么,训练得到的模型中,每个类别下的概率最大的一些词汇,就是最能表征该类别特征的词汇,分析这些词汇并得出数据集的内在知识
7、最后是一些文本建模中的注意点:
构建词汇表:分词、大小写转换 | 超链接合并 | 停用词去除 | 高频词去除 | 正则项匹配 | 长度限制 | 等等 --->得到词汇表、
语义分析:同义词合并、pLSA、LDA等
- 机器学习实战——第四章:朴素贝叶斯
- 机器学习实战第四章——朴素贝叶斯分类(源码解析)
- 《机器学习实战》第四章 4.1-4.5 朴素贝叶斯
- 机器学习实战+第四章_朴素贝叶斯
- 机器学习实战-第四章(朴素贝叶斯)
- 机器学习实战之第四章 朴素贝叶斯
- 机器学习实战——朴素贝叶斯
- 机器学习实战学习笔记8——朴素贝叶斯
- 《机器学习实战》读书笔记 第四章 朴素贝叶斯(part 1)
- 《机器学习实战》读书笔记 第四章 朴素贝叶斯(part 2)
- 机器学习实战python版第四章基于概率论的分类方法 朴素贝叶斯
- 《机器学习实战》第四章:朴素贝叶斯(1)基本概念和文本分类
- 《机器学习实战》第四章:朴素贝叶斯(2)两个实例
- 机器学习实战第四章朴素贝叶斯算法照葫芦画瓢算法实践
- 《机器学习实战》——朴素贝叶斯算法
- 《机器学习实战》——朴素贝叶斯分类
- PYTHON机器学习实战——朴素贝叶斯
- 从零开始实战机器学习(3)—朴素贝叶斯算法
- UITableView中herderView的复用
- 深入浅出MFC:动态创建控件
- 【Java并发编程】之十四:图文讲述同步的另一个重要功能:内存可见性
- centos:给ftp新增加一个用户
- 机器学习基石笔记
- 机器学习实战——第四章:朴素贝叶斯
- MFC学习(17)数据库对于给定起始时间和目标统计时间段的情况如何处理
- 阅3、4
- 深入源码剖析LruCache
- windows程序设计——消息循环
- BestCoder Round #41 (dp)hdu5229,5230
- 20个可能成为设计师的习惯
- 天声人語 20150517
- Http 和TCP的关系,TCP长连接和短连接有什么区别?