数据挖掘十大算法——Naive Bayes
来源:互联网 发布:matlab生成无标度网络 编辑:程序博客网 时间:2024/05/19 14:36
简介
Naive和Bayes
Naive:假定向量中的所有特征是相互独立的
Bayes:
面向的问题
NB主要用于解决有监督分类问题。相比于其他模型,其具备简单(不需要复杂的迭代式参数估计,由此方便处理大数据)、可解释性强(生成模型)、效果佳的特点。
目标
针对二分类问题,利用训练集数据学习一个判断阈值α,对于新来的数据做判定,大于α的数据属于正类,小于α的数据属于负类。有监督分类中存在两大流派 diagnostic paradigm 和 sampling paradigm ,前者注重于发现类间的区别,后者注重于发现类本身的分布形式,NB兼而有之。
算法描述
从sampling paradigm角度出发,定义
由Bayes公式,
一个优雅的特点
根据上述算法描述,可以得知,如果对
讨论
独立性假设是NB中的一个核心观点,但是很明显在现实中,这个假设通常都是不合理的,偏偏NB又能产生很好的效果。由“不合理”的假设得到合理的结果,这看起来是违背常理。下面我们讨论具体原因
复杂度
独立单变量模型的复杂度远低于相关多变量模型,在估计时少量数据即可达到较好的精度。
模型变种
Laplacian correction
先验概率
相关关系引入
引入特征的两两相关
引入马尔科夫模型
Logistic Regression
与NB很相似,但是参数估计不能用直接简单的概率完成,而需要通过迭代的方法。因此更为复杂
应用实例
我们期望通过左侧三列数据,预测该用户进行信用欺诈的可能性。
各特征的估计
连续数据离散化
我们注意到,这里的T,S都是毕竟分散的连续型数据,因此我们可以通过设定阈值的方法使其离散化。
T 我们设定阈值为10, S 我们设定阈值为10000
由此可得:
现在,有一个新用户申请信用卡,他的 T=5, S=7000,H=1
则,
又根据
如果我们设定阈值为0.5,则该用户是可以被授信的
(完)
- 数据挖掘十大算法——Naive Bayes
- 数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
- 数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
- 数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
- 数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
- 数据挖掘十大经典算法学习之Naive Bayes朴素贝叶斯
- 数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
- 数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
- 数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
- 数据挖掘十大经典算法学习之Naive Bayes朴素贝叶斯
- 数据挖掘十大经典算法(九) 朴素贝叶斯分类器 Naive Bayes
- 数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes
- 数据挖掘算法之 Naive Bayes
- 数据挖掘十大经典算法(9) Naive Baye
- 基于微软案例数据挖掘之Microsoft Naive Bayes 算法
- 白手起家学习数据科学 ——Naive Bayes之“背后的思想”(十)
- 白手起家学习数据科学 ——Naive Bayes之“测试模型篇”(十)
- 数据挖掘十大算法——SVM
- cef3嵌入MFC
- hdu5334(2015多校4)--Virtual Participation(构造)
- hdu2602 Bone Collector(背包问题)
- 关于多态的一些自己理解
- mysql_insert_id()寻找上一次插入的id
- 数据挖掘十大算法——Naive Bayes
- PDF之itextsharp的使用开发历程3
- Xcode的Product Name、Bundle Name、Bundle Display Name
- restrict 关键字 与 别名问题
- camel配置webService
- android webView.loadData乱码解决方案
- NHibernate剖析:Mapping篇之Mapping-By-Code(1):概览
- 响应式网页设计的20个误区
- LeetCode-31 Next Permutation